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内 容 提 要 


HBase 是 一 种 NoSQL 存储 系统 ， 专 门 设计 用 来 快速 随机 读 写 大 规 
模 数 据 。HBase 运 行 在 普通 商用 服务 器 上 ， 可 以 平滑 扩展 ， 以 文 持 从 
中 等 规模 到 数 十 亿 行 、 数 百 万 列 的 数据 集 。 

本 书 是 一 本 基于 经 验 提炼 而 成 的 指南 ， 它 教 给 读者 如 何 运用 
HBase 设 计 、 搭 建 及 运行 大 数据 应 用 系统 。 全 书 共 分 为 4 个 部 分 。 前 两 
个 部 分 分 别 介 绍 了 分 布 式 系 统 和 大 规模 数据 处 理 的 发 展 历 史 ， 讲 解 
HBase 的 基本 原理 模式 设计 以 及 如 何 使 用 HBase 的 高 级 特性 ， 第 三 部 
分 通过 真实 的 应 用 和 代码 示例 以 及 文 持 这 些 实践 技巧 的 理论 知识 ， 进 
一 步 探 索 HBase 的 一 些 实 用 技术 ; 第 四 部 分 讲解 如 何 把 原型 开发 系统 
升级 为 妆 妈 丰满 的 生产 系统 。 

本 书 适 合 所 有 对 云 计算 、 大 数据 处 理 技术 和 NoSQL 数 据 库 感 兴趣 
的 技术 人 员 了 阅读 ， 尤 其 适合 对 Hadoop 及 HBase 感 兴趣 的 技术 人 员 参 
考 。 阅 读本 书 不 要 求 之 前 具备 HBase、Hadoop 或 者 MapReduce 方 面 的 
知识 。 


译 者 序 


互联 网 技术 已 飞速 发 展 十 几 年 ， 移 动 互 联网 的 崛起 更 是 如 火 如 
茶 ， 基 于 iOS 和 Android 平台 的 智能 手机 在 中 国 已 是 沁 地 开花 ， 使 得 
用 户 接 入 互联 网 的 方式 和 用 户 行 为 正在 发 生 翻天 履 地 的 变化 ， 由 量变 
引发 质变 ， 各 行 各 业 无 论 愿 意 与 否 ， 世 在 不 知 不 沉 中 经 历 着 深刻 变 
革 。 这 种 变化 映射 到 后 台 ， 一 个 决定 性 的 基础 环节 丈 是 一 大 数据 。 
是 的 ， 不 是 “数据 ”， 而 是 “大 数据 ”! 现在 ， 无 论 在 数据 规模 、 数 据 类 
型 、 数 据 来 源 上 ， 与 几 年 前 已 经 截然 不 同 。 这 是 摆 在 很 多 企业 和 个 人 
面前 的 一 个 机 会 ， 同 时 也 是 一 个 挑战 ! 数据 不 必然 等 于 信息 ， 也 不 必 
然 等 于 价值 ， 只 有 经 过 性 能 优异 的 大 数据 技术 平台 的 续 密 管理 ， 才 可 
以 发 挥 “ 大 数据 ”的 威力 ， 才 能 真正 挖掘 出 商业 价值 。 

近年 来 ， 各 种 管理 数据 的 技术 在 不 断 创新 ， 其 中 Hadoop 开 源 产 品 
系列 在 商业 实践 中 取得 了 广泛 认可 ， 几 近 成 为 事实 上 的 大 数据 管理 行 
业 标 准 平台 。 而 HBase 正 是 Hadoop 产 品系 列 里 的 分 布 式 数据 库 平 台 ， 
主要 应 用 于 在 线 应 用 系统 。 当 访问 淘宝 、FaceBook， 或 者 访问 搜索 引 
擎 、 电 商 门 户 、 视 频 了 网 站 时 ， 你 或 多 或 少 已 经 使 用 了 某 些 基于 HBase 
的 应 用 服务 。 在 互联 网 公司 里 ，HBase 和 Hadoop 的 应 用 已 经 有 些 年 头 
了 。 现 在 的 情况 是 ， 越 来 越 多 的 传统 企业 也 对 它们 表现 出 了 浓厚 的 兴 
趣 。 在 电信 、 人 金融 、 生 物 制药 、 智 能 交通 、 医 疗 、 智 能 电网 等 行业 ， 
越 来 越 多 的 企业 用 户 和 解决 方案 提供 商 正 在 尝试 使 用 HBase 和 Hadoop 
等 技术 ， 如 果 有 一 天 你 发 现 你 的 话费 清单 数据 实际 上 来 自 于 HBase 系 
统 而 不 是 Oracle 系 统 ， 请 不 要 感到 奇怪 。 


大 数据 的 概念 已 经 被 宣传 得 有 些 泛滥 ， 但 是 如 何 搭建 一 个 性 能 优 
异 的 、 高 性 价 比 的 大 数据 解决 方案 却 谈 得 很 不 够 。 《HBase 实战 》 正 
是 谈论 这 个 话题 的 经 典 书籍 ， 我 希望 本 书 在 国内 翻译 出 版 ， 有 助 于 宣 
传 和 推广 HBase 和 Hadoop 技 术 ， 把 大 数据 解决 方案 成 功 地 应 用 于 更 多 
的 行业 。 

本 书 始终 沿 着 一 条 主线 由 浅 入 深 地 逐步 展开 ， 那 陇 是 如 何 基 于 
HBase 搭 建 符合 生产 要 求 的 应 用 系统 。 此 外 ， 本 书 还 剖析 了 两 个 实际 
使 用 中 的 应 用 系统 ， 一 方面 验证 前 面 介绍 的 设计 技巧 和 系统 特性 ; 另 
一 方面 也 为 你 自己 的 应 用 系统 设计 提供 一 些 思路 和 启发。 最 后 ， 本 书 
还 简要 总 结 了 HBase 运 维 方面 的 重要 内 容 。 总 体 来 看 ，HBase 和 传统 3 
系 型 数据 库 的 设计 初衷 有 很 大 不 同 ， 所 以 设计 基于 HBase 的 应 用 系统 
也 大 有 不 同 。 人 简单 来 说 ， 针 对 高 吞吐 量 、 高 可 扩展 能 力 的 场合 ， 
HBase 的 表现 相当 令 人 司 讶 。HBase 的 使 用 场景 还 在 不 断 扩 展 ， 如 果 你 
对 此 感 兴趣 ， 可 以 通过 网 络 搜索 找到 更 多 信息 。 

HBase 和 Hadoop 现 在 都 是 Apache 软 件 基金 会 的 顶级 项 目 ， 是 开源 
软件 世界 的 杰作 ， 它 们 的 思想 源 自 Google 的 三 大 论文 。 一 个 成 功 的 开 
源 项 目 背 后 往往 有 一 个 兴旺 的 开源 社区 ，HBase 和 Hadoop 也 是 如 此 。 
但 是 ， 由 于 语言 的 障碍 ， 以 及 国内 和 国外 沟通 偏好 的 差别 ， 国 内 的 朋 
友 参与 国外 的 开源 社区 时 ， 可 能 会 有 一 些 不 便利 之 处 。 基 于 这 个 考 
虑 ， 我 发 起 建立 了 ChinaHadoop 社 区 (http://ChinaHadoop.net) ， 这 里 
汇集 了 许多 国内 一 线 互 联网 公司 数据 平台 的 技术 专家 ， 硕 望 能 够 成 为 
内 大 数据 领域 最 有 活力 的 互动 和 分 享 平台 ， 将 Hadoop 的 开源 及 分 享 
精神 发 扬 光 大 。 借 此 机 会 诚 邀 你 参与 名 来 ! 

在 本 书 的 翻译 过 程 中 ， 我 得 到 了 来 自 ChinaHadoop 社 区 技术 专家 
的 大 力 支 持 。 其 中 ， 卢 亿 雷 审 校 了 序言 、 第 1、7、8 章 ， 搜 狗 的 洗 成 源 
审 校 了 第 4、5 草 ， 神 州 数 码 的 何 德 芳 审 校 了 第 9、10 草 ， 新 浪 的 或 康 审 
校 了 第 2、3、6 章 ， 在 此 表示 惠 心 感谢 


感谢 华 罕 、 杨 窒 檬 、 杜 航 等 朋友 ， 作 为 本 书 早期 的 读者 ， 他 们 给 
出 了 很 多 有 建设 性 的 反馈 意见 。 

此 外 ， 本 书 的 责 全 编 辑 杨 海 险 女 士 及 其 团队 在 整个 翻译 过 程 中 不 
时 给 予 反 馈 和 建议 ， 在 此 表示 衷心 的 感谢 。 

感谢 我 的 家 人 ， 他 们 总 是 默默 地 给 予 我 最 大 的 支持 和 包容 ， 让 我 
能 够 集中 全 部 精力 投入 到 翻译 中 ;， 本 书 的 翻译 占用 了 大 量 的 业余 时 
则 ， 即 使 是 4 岁 的 天 了 予 宝宝 也 知道 不 要 打扰 爸爸 。 

于 我 而 言 ， 翻 译本 书 的 过 程 也 是 一 个 学 习 的 过 程 ; 译文 中 各 有 错 
误 或 者 不 足 之 处 ， 敬 请 读者 给 予 指正 ， 以 便 能 够 不 断 改 加 。 来 信 请 联 
系 邮箱 ChinaHadoop@sina.com， 或 者 联系 新 浪 微 博 @ChinaHadoop。 本 
书 勘误 也 会 及 时 公布 于 网 站 : http://ChinaHadoop.net。 
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总 体 而 言 ，HBase 就 像 原子 弹 一 样 ， 正 反 两 面 特点 鲜明 。 一 方 
面 ， 它 的 基本 操作 如 此 简单 ， 似 乎 在 酒杯 边 的 一 两 张 餐 巾 纸 的 背面 就 
可 以 解释 清楚 ， 男 一 方面 ， 它 的 部 署 却 是 男 一 回 事 儿 ， 相 当 复 杂 。 

HBase 由 多 个 灵活 的 部 件 构 成 ， 分 布 式 的 HBase 应 用 系统 包括 许 
多 客户 端 和 服务 絮 馆 程 。 例 如 ，HBase 在 Hadoop 分 布 式 文件 系统 

(Hadoop Distributed File System) 上 存储 此 外 ，HBase 使 用 了 另 一 

个 分 布 式 系统 Apache ZooKeeper 来 管理 整个 集群 状态 ， 还 有 ， 大 多 数 
的 部 署 都 用 到 MapReduce， 用 来 批量 加 载 数据 或 者 运行 分 布 式 的 全 表 
扫描 等 任务 。 显 然 ， 近 乎 完美 地 把 各 个 部 分 组 合 在 一 起 是 相当 不 容易 
时。 

构建 合适 的 环境 和 做 出 适当 的 配置 对 于 HBase 来 说 是 至 关 重 要 
的 。HBase 作 为 一 种 通用 的 数据 存储 ， 可 以 广泛 用 在 各 种 各 样 的 应 用 
系统 中 。 它 的 默认 设置 选择 了 保守 的 做 法 ， 主 要 面 对 通 用 的 使 用 场景 
和 常见 的 硬件 规 模 。 它 的 适应 能 力 或 者 说 日 我 调整 能 力 还 有 很 大 空 
间 ， 所 以 你 可 以 根据 实际 的 硬件 和 负载 情况 来 调整 HBase， 但 往往 需 
要 经 过 多 次 尝试 后 才 可 以 得 到 正确 的 配置 。 

仅仅 做 出 适当 的 配置 还 不 够 ， 对 HBase 的 数据 模式 模型 也 必须 给 
予 足够 重视 。 如 采 数 据 模式 和 数据 存储 的 检索 方式 不 匹配 ， 再 合适 的 
配置 方案 也 于 事 无 补 。 相 反 ， 如 采 模 式 和 数据 检索 方式 例 瑟 和 谐 ， 性 
能 就 会 得 到 巨大 的 提升 。 习 惯 了 关系 型 数据 库 思 维 的 人 们 往往 不 习惯 


HBase 模 式 建 模 。 使 用 HBase 这 样 的 列 式 数 据 库 和 使 用 MySQL 这 样 的 
天 系 型 数据 库 相 比 ， 尽 管 有 些 相似 之 处 ， 但 还 是 有 许多 不 同 的 技巧 。 

如 果 你 需要 上 述 帮 助 ， 这 本 书 束 是 为 你 量 吴 定制 的 ， 这 本 书 还 可 
以 在 其 他 方面 提供 帮助 ， 如 如 何 往 HBase 核心 里 增加 自 定义 功能 ， 什 
么 是 恨 好 的 HBase 应 用 系统 设计 ， 等 等 。 Amandeep 和 Nick 使 用 了 适当 
的 、 饱 售 实 践 经 验 的 文字 ， 浅 显 易 懂 地 告诉 你 怎样 使 用 HBase。 这 本 
书 可 以 帮助 那些 基于 HBase 部 署 应 用 系统 的 人 们 。 

Nick 和 Amandeep 是 有 真 材 实 料 的 老师 ， 他 们 都 是 长 期 的 HBase 实 
践 者 。 回 忆 往 苷 ， 多 年 前 Amandeep 来 到 旧金山 加 入 我 们 早期 的 周末 
黑客 马拉松 的 时 候 ， 我 们 挤 在 他 的 ThinkPad 旧 笔记 本 电脑 卷 边 ， 在 
HBase 项 目 早期 版 本 上 努力 调试 数据 的 场景 。 

他 在 项 目 邮 件 列 表 上 帮助 了 很 多 人 ， 对 于 HBase 社区 贡献 良 多 。 
不 久之 后 ，Nick 也 出 现 了 ， 不 时 地 在 HBase 项 目 中 靳 露头 角 ， 添 砖 加 
瓦 。 他 们 拿 出 时 间 研 究 和 编 自 目 己 的 经 验 ， 把 这 本 书页 献 给 了 HBase 
社区 。 

你 可 能 打算 阅读 这 本 书 ， 也 可 能 打算 下 载 使 用 HBase， 但 是 请 不 
要 错过 HBase 最 宝贵 的 东西 一 一 开发 者 社区 。 围 绕 HBase 项 目 ， 一 个 多 
功能 的 、 热 情 的 开发 者 社区 已 经 成 长 起 来 了 ， 并 且 正 在 推动 项 目 全 力 
发 展 。 像 Amandeep、Nick 和 我 目 己 这 样 的 成 员 ， 最 让 我 们 目 桶 的 就 是 
我 们 的 社区 。 尽 管 Facebook、 华 为 、Cloudera 和 Salesforce 等 大 公司 对 
于 HBase 的 发 展 贡 献 也 很 大 ， 但 是 社区 的 形成 不 是 因为 公司 ， 而 是 因 
为 我 们 这 些 参与 的 个 体 。 请 考虑 加 入 迪 来 吧 ， 我 们 欢迎 你 。 

Michael stack 
Apache HBase 项 目 管 理 委员 会 主席 


到 HBase 社 区 的 一 雪 信 


在 讨论 现状 之 前 ， 请 允许 我 把 时 间 倒 退 几 年 ， 看 看 HBase 是 怎么 
开始 的 。 

2007 年 ， 我 需要 一 个 大 规模 的 、 可 扩展 的 数据 存储 方案 ， 但 是 几 
平 没 有 预算 ， 所 以 也 就 没有 多 少 选 择 。 要 么 使 用 免费 开源 数据 库 ， 如 
MySQL 或 者 PostgreSQL; 要 么 使 用 像 Berkeley DB 这 样 的 纯 键 值 数据 
库 ; 要 么 选择 自己 开发 ， 这 可 是 一 个 新 领域 ， 至少 在 当时 你 需要 足够 
勇敢 才 会 这 么 党 试 。 

当时 已 有 的 解决 方案 或 许 也 可 以 用 ,但 是 对 它们 最 大 的 顾虑 是 可 
扩展 性 。 在 这 一 点 上 当时 的 系统 做 得 并 不 好 ， 往 往 需 要 事后 补救 。 我 
需要 存储 数 十 亿 个 文档 ， 维 护 一 个 关于 它们 的 搜索 索引 ， 要 求 文 持 数 
据 随机 更 新 并 且 同 时 快速 更 新 索引 。 这 些 需 求 让 我 选择 了 第 三 种 方 
式 : Hadoop 和 HBase。 

这 两 个 产品 有 着 强大 的 血统 ， 它 们 都 源 目 Google 公司 ， 这 是 一 个 
每 当 提 到 可 扩展 系统 束 能 想到 的 群英 汇集 的 殿 特 。 我 相信 ， 如 果 这 些 
系统 可 以 服务 于 世界 上 最 大 的 用 户 ， 它 们 一 定 是 牢固 可 靠 的 。 因 此 ， 
我 选择 使 用 HBase (还 有 Lucene) 构建 我 的 系统 。 

在 2007 年 ， 这 种 选择 不 多 ， 很 容易 决定 。 但 是 再 往 后 几 年 ， 这 个 
新 兴 领 域 逐 渐 成 长 壮大 ， 我 们 看 到 了 许多 有 竞争 力 的 和 补充 的 解决 方 
案 。 于 是 大 家 使 用 专用 术语 NoSQL 来 把 这 些 分 布 式 数据 库 归 为 一 类 。 
这 个 专用 术语 一 直 伴随 着 长 期 的 、 有 时 也 显得 没有 意义 的 争论 ;对 我 
来 说 ， 有 意义 的 是 可 用 的 选择 越 来 越 多 了 。 


定位 各 种 狐 生 数据 库 系 统 的 基础 是 比较 它们 的 功能 特性 : 强 一 致 
性 和 最 终 一 致 性 《两 者 用 来 满足 不 同 的 特定 需求 ) 。 人 们 再 一 次 以 这 
种 方式 衡量 HBase 和 它 的 同类 产品 ， 例 如 ， 使 用 Eric Brewer 的 CAP 定 
理 来 衡量 。 随 之 而 来 的 是 一 场 激 烈 的 讨论 ， 什 么 是 最 重要 的 是 强 一 
致 性 ? 还 是 即使 在 灾难 情况 下 部 分 系统 硬件 故障 时 还 可 以 保证 数据 服 
务 ? 

和 前 面 一 样 ， 对 我 而 言 ， 这 是 个 选择 的 问题 。 我 学 会 的 是 ， 你 打 
算 使 用 一 个 系统 就 要 先 全 面 了 解密 。 今 天 我 们 选择 余地 很 大 ， 解 决 方 
案 也 有 重 琶 和 相似 之 处 ; 我 的 选择 并 不 意味 着 其 他 解决 方案 等 而 下 
之 。 你 应 该 成 为 一 个 能 够 区 分 它们 的 专家 ， 然 后 根据 你 手边 的 问题 做 
出 最 佳 选 择 。 

我 们 就 是 这 样 选 择 了 HBase， 一 直 使 用 到 今天 。 坚 无 疑问 ， 大 名 
思 思 的 大 型 网 络 公司 用 户 提 升 了 HBase 的 声誉 ， 证 实 了 HBase 可 以 胜 
做 特定 的 使 用 场景 。 这些 公 司 都 有 一 个 重要 的 优势 ， 它们 雇佣 了 非常 
有 经 验 的 工程 师 。 但 是 ， 许 多 小 型 公司 使 用 HBase 和 基于 它 的 应 用 系 
统 并 不 顺利 。 我 们 需要 有 人 用 一 种 简单 易 民 的 方式 指导 大 家 如 何在 
HBase 上 轻松 搭建 验证 过 的 、 成 熟 的 使 用 场景 。 

应 该 怎样 设计 模式 (schema) 来 存储 复杂 的 数据 以 保证 读 写 性 能 
的 均衡 ? 应 该 怎样 规划 数据 的 访问 方式 来 保证 最 大 限度 地 发 挥 HBase 
集群 的 威力 ? 如 果 你 订阅 了 公共 邮件 列表 ， 类 似 问题 还 有 很 多 。 
Amandeep 和 Nick 会 在 这 些 地 方 帮助 大 家 。 他 们 在 各 种 用 户 场 景 下 使 用 
HBase 的 丰富 的 实战 经 验 可 以 帮 你 了 解 使 用 正确 的 数据 模式 和 访问 方 
式 的 复杂 性 ， 帮 你 成 功 构建 下 一 个 项 目 。 

HBase 会 有 什么 样 的 未 来 呢 ? 我 相信 前 程 远 大 ! 同样 的 技术 仍然 
在 Google 公司 承载 着 数量 众多 的 产品 和 系统 ， 反 对 的 观点 被 证 实 是 错 
误 的 ，HBase 社 区 也 成 长 为 我 参加 过 的 最 健康 的 社区 之 一 。 我 要 表达 
我 的 感谢 ， 给 那些 推举 我 为 Fellow Member 的 人 ， 给 那些 每 天 提交 代 


码 和 补丁 使 HBase 变 得 更 好 的 人 ， 给 那些 主动 在 HBase 上 投入 全 职工 
程 师 的 公司 ， 也 要 给 HBase 项 目 管 理 委 员 会 。 这 绝对 是 一 个 我 所 知道 
的 最 真诚 的 群体 。 

最 后 ， 非 常 感谢 Nick 和 Amandeep 写 了 这 本 书 。 这 本 书 有 助 于 实现 
HBase 的 价值 ， 有 助 于 传播 开源 理念 。 在 他 们 开始 写 这 本 书 之 前 我 们 
束 认 识 了 ， 他 们 有 些 顾 虚 。 当 时 我 支持 说 这 是 你 们 能 够 为 HBase 和 
社区 所 做 的 最 棱 的 事情 。 作 为 个 人 ， 能 够 成 为 社区 的 一 伴 子 我 感到 说 
拱 和 目 察 。 


Lars George 


HBase Committer 


了 


2008 年 秋季 我 开始 和 HBase 结缘 ， 当 时 它 还 是 一 个 新 生 项 目 ， 一 
年 前 刚刚 发 布 。 早 期 版 本 出 来 时 ，HBase 表 现 很 不 错 ， 但 是 也 不 是 没 
有 令 人 片 肉 的 缺陷 。HBase 项 目 当 时 有 近 10 个 软件 Commiffer， 作 为 一 
个 Apache 子 项 目 还 算 不 销 。 接 下 来 是 NoSQL 宣 传 的 高 淹 。 当 时 专 有 名 
词 NoSQL 还 没有 出 现 ， 但 是 随后 的 一 年 这 个 术语 变 成 了 通俗 用 语 。 
没有 人 能 够 说 清楚 为 什么 NoSQL 重要 ， 只 知道 它 束 是 重要 ， 反 正 数 
据 领 域 开源 社区 的 每 个 人 都 对 这 个 概念 很 着 迷 。 社 区 中 有 两 种 声 首 ， 
有 人 批评 关系 型 数据 库 ， 批 评 它 电 不 可 及 的 严谨 ;有 人 嘲笑 新 技术 ， 
嘲笑 它 不 够 成 熟 。 

大 部 分 探索 新 技术 的 人 来 自 于 互联 网 公司 ， 当 时 我 就 在 一 家 致力 
于 社交 媒体 内 容 分 析 的 创业 公司 工作 。 那 时 候 Facebook 大 在 强调 隐私 
政策 ， 而 Twitter 还 不 够 大 ， 其 著名 的 报错 页 面 “失败 的 饼 鱼 ” (Fail 
Whale) 还 没有 问世 。 当 时 我 们 的 兴趣 点 主要 在 博客 上 “。 在 此 前 一 家 
公司 我 伦 了 3 年 好 时 光 专 注 于 层次 型 数据 库 引 擎 。 我 们 广泛 使 用 了 
Berkeley DB， 所 以 我 熟悉 不 使 用 SQL 引擎 的 数据 技术 。 在 这 家 公司 我 
加 入 了 一 个 小 团队 ， 侨 务 是 构建 一 个 新 型 数据 管理 平台 。 我 们 有 一 个 
MS SQL 数据 库 ， 已 经 塞 满 了 博客 帖子 和 评论 。 当 我 们 的 日 党 分 析 作 
业 耗 时 达到 18 小 时 时 ， 我 们 都 知道 这 个 系统 时 日 不 多 了 。 

在 收集 了 基本 需求 后 ， 我 们 着 手 寻 找 新 型 数据 技术 。 我 们 的 团队 
不 大 ， 一 边 维 护 现 有 系统 ， 一 边 花 了 数 月 时 间 评 估 不 同 的 选择 。 我 们 
试验 了 不 同 的 方法 ， 开 亲身 感受 了 对 数据 手工 分 区 的 痛 苗 。 我 们 研究 


了 CAP 定 理 和 最 终 一 致 性 ， 最 后 的 结论 是 妥协 。 尽 管 HBase 有 人 缺点， 
我 们 还 是 决定 选择 它 ， 我 们 认为 开源 技术 的 潜在 好 处 超过 了 它 的 风 
险 ， 开 且说 服 了 经 理 。 

我 在 家 里 玩 过 Hadoop， 但 是 仍 没有 写 过 真正 的 MapReduce 作 业 。 
我 听 说 过 HBase， 但 在 这 侍 新 工作 之 前 也 没有 特别 关注 过 。 随 着 时 间 
推 黎 ， 我 们 已 经 开始 行动 。 我 们 申请 了 一 些 空 内 机 器 和 几 个 机 架 ， 然 
后 束 开 工 了 。 这 家 公司 是 .NET 的 地 盘 ， 我 们 得 不 到 运 维 文 持 ， 所 以 我 
们 学 着 使 用 bash 和 rsync， 自 己 管理 整个 集群 。 

我 加 入 了 邮件 列表 和 IRC 上 频道， 开始 提问 题 。 就 在 那个 时 候 ， 我 
认识 了 Amandeep。 他 在 忙于 硕士 论文 ， 尝试 把 HBase 运 行 到 Hadoop 以 
外 的 系统 上 。 不 久 他 完成 学 业 ， 加 入 Amazon， 搬 到 西雅图 。 在 这 个 充 
满 微 软 痕迹 的 城市 中 ， 我 们 两 个 是 少 有 的 HBase 粉 丝 。 随 后 两 年 很 快 


2010 年 秋季 ， 第 一 次 提出 让 我 们 写 《HBase 实 战 》。 在 我 们 看 
来 ， 这 很 搞笑 。 为 什么 是 我 们 这 两 个 社区 会 员 来 写 这 本 书 ? 内 部 来 
看 ， 这 是 一 块 难 噶 的 骨头 。 《HBase 权威 指南 》 正 在 违 展 中， 我们 认 
识 它 的 作者 ， 我 们 深 知 在 他 面前 的 挑战 。 外 部 来 看 ， 我 认为 HBase 只 
苹 一 个 “简单 的 键 值 数据 库 ”。API 只 有 5 个 基本 概念 ， 都 不 复 洒 。 我 们 
不 想 再 写 一 本 类 似 于 《HBase 权 威 指南 》 那 样 介绍 内 部 机 制 的 书 ， 我 
也 不 相信 应 用 开发 人 员 仍 这 类 书 中 可 以 得 到 足够 有 价值 的 东西 。 

我 们 开始 做 头脑 风暴 ， 事 情 很 快 清 楷 了 ， 我 是 错 的。 不 仅 可 以 找 
到 足够 的 资料 帮助 用 户 ， 而 且 社区 会 员 的 角色 使 得 我 们 成 为 写 这 本 书 
的 最 佳人 选 。 我 们 开始 分 门 别 类 整理 多 年 来 我 们 使 用 这 门 技 术 累 积 下 
来 的 知识 。 这 本 书 十 我 们 8 年 来 使 用 HBase 实 践 经 验 的 升华 。 它 面向 
HBase 的 全 新 用 户 ， 可 以 指导 大 家 路过 我 们 目 己 当年 过 到 过 的 障碍 。 
我 们 尽 可 能 多 地 收集 和 编 扯 了 散布 在 社区 里 的 内 部 知识 。 对 于 模糊 的 
建议 我 们 尽 可 能 给 出 清晰 的 指导 。 我 们 希望 你 能 发 现 这 本 书 是 一 个 完 


整 的 手册 ， 可 以 帮助 你 顺利 开始 使 用 HBase， 而 不 只 是 一 个 简单 的 问 
答 列表 。 

HBase 现 在 逐渐 稳定 了 。 我 们 开始 时 遇 到 过 的 大 部 分 缺陷 已 经 被 
解决 、 打 上 补丁 、 或 者 完全 修改 了 以 构 。HBase 正 在 接近 1.0 版 本 ， 在 
这 个 里 程 碑 时 刻 我 们 很 目 运 目 己 是 社区 的 一 部 分 。 我 们 很 目 紧 把 这 什 
书稿 提交 给 社区 ， 和 希望 它 可 以 鼓舞 和 帮助 下 一 代 HBase 用 户 。HBase 基 
强大 之 处 吏 是 兴旺 的 社区 ， 我 们 希望 你 加 入 到 社区 来 ， 帮 助 社区 在 数 
据 系统 新 时 代 继 续 创 新 。 


Nick Dimiduk 

当 你 看 到 这 里 的 时 候 ， 你 大 概 很 想 知 道 我 是 怎样 迎 入 HBase 世 界 
的 。 首 移 我 要 感谢 你 选择 这 本 书 来 学 习 HBase， 学 习 怎 样 使 用 HBase 作 
为 存储 系统 来 搭建 应 用 系统 。 硕 望 你 能 找到 有 用 的 东西 和 实用 技巧 ， 
以 便 更 好 地 搭建 应 用 系统 ， 祝 你 成 功 。 

我 曾经 在 加 州 大 学 圣 倪 和 鲁 兹 分 校 馆 行 本 科学 习 ， 当 时 我 在 思科 公 
司 找 了 一 伴 兼 职 研 究 员 的 工作 ， 专 注 于 分 布 式 系 统 。 我 所 工作 的 团队 
当时 在 搭建 一 个 数据 集成 框架 ， 这 个 框架 可 以 对 数 百 种 数据 存储 ( 包 
括 但 不 限于 大 型 关系 型 数据 库 管 理 系 统 ) 上 的 数据 过 行 集成 、 索 引 和 
人 研究。 我们 开始 寻找 可 以 解决 问题 的 系统 和 解决 方案 。 我 们 评估 了 许 
多 系统 ， 仍 对 象 数据 库 到 图 形 数据 库 ， 最 后 我 们 考虑 基于 Berkeley DB 
构建 一 个 定制 的 分 布 式 数据 存储 。 显 而 易 见 的 一 个 关键 需求 是 可 扩展 
性 ， 但 是 我 们 开 不 想 仍 头 开始 构建 一 个 分 布 式 系统 。 想 想 看 ， 如 采 你 
为 某 个 机 构 工 作 ， 打 算 构 建 一 个 定制 的 分 布 式 数据 库 或 者 文件 系统 ， 
最 好 先 看 看 有 没有 现成 的 解决 方案 可 以 解决 你 的 一 部 分 问题 。 

基于 这 个 原则 ， 我 们 认为 仍 头 开始 搭建 新 系统 是 不 明智 的 ， 我 们 
希望 使 用 已 有 的 技术 。 随 后 我 们 开始 使 用 Hadoop 系 列 产 品 ， 壬 试 了 很 
多 组 件 ， 在 HBase 上 为 数据 集成 系统 搭建 了 概念 验证 原型 系统 。 系 统 
工作 民 好 ， 扩 展 性 也 不 错 。HBase 很 适合 解决 这 类 问题 ， 但 是 当时 它 


们 都 是 新 生 项 目 ， 能 够 保证 我 们 成 功 的 一 个 重要 因素 是 它们 的 社区 。 
HBase 有 着 一 个 最 热情 的 、 最 有 活力 的 开源 社区 ; 当时 社区 规模 要 小 
得 多 ， 但 是 迄今 为 止 其 核心 理念 一 直 没 有 变化 。 

后 来 数据 集成 项 目 成 了 我 的 研究 生 论 文 。 这 个 项 目 用 HBase 作 为 
核心 ， 因 此 我 也 越 来 越 深入 地 参与 到 社区 中 。 在 邮件 列表 里 和 IRC 频 
道里 ， 开 始 我 是 问 别 人 问题 ， 后 来 我 也 回答 别人 的 问题 。 在 这 段 时 间 
里 我 认识 了 Nick 开 了 解 了 他 在 做 什么 。 在 为 这 个 项 目 工作 的 过 程 中 ， 
我 对 这 个 技术 和 开源 社区 的 兴趣 和 热爱 与 日 俱 增 ， 我 希望 一 直 参 与 下 
去 o 

完成 研究 生 学 习 后 ， 我 加 入 了 位 于 西雅图 的 Amazon， 开 始 做 后 
端 分 布 式 系统 项 目的 工作 。 我 的 大 部 分 时 间 花 在 Elastic MapReduce 
队 那 里 ， 我 们 搭建 了 HBase 托管 服务 的 第 一 个 版 本 。Nick 也 生活 在 西 
雅 图 ， 我 们 经 常见 面 ， 讨 论 工作 中 的 项 目 情况 。2010 年 夺 ，Manning 
出 版 社 提出 写 《HBase 实 战 》 这 本 书 。 开 始 的 时 候 我 们 觉得 这 个 想法 
很 搞笑 ， 我 记得 对 Nick 说 过 : “不惑 是 上 传 、 下 载 和 扫描 吗 ? HBase 的 
客户 端 只 做 这 几 件 事情 。 你 想 写 一 本 介绍 3 个 API 调用 的 书 吗 ? ” 

但 是 深入 思考 之 后 ， 我 们 意识 到 构建 HBase 应 用 系统 很 有 挑战 ， 

而 市 面 上 缺乏 足够 的 资料 可 供 局 蒙 。 这 种 情况 限制 了 HBase 的 发 展 。 

我 们 雇 定 收集 更 多 如 何 有 歼 使 用 HBase 的 资料 ， 来 帮助 大 家 构建 满足 
需要 的 系统 。 我 们 花 了 一 些 时 间 整 理 资料 ，2011 年 秋季 ， 我 们 开始 了 
这 本 书 的 写作 。 

那 段 时 间 ， 我 搬家 到 了 旧金山 ， 加 入 了 Cloudera 人 公司， 接触 到 很 
多 搭建 在 Hadoop 和 HBase 上 的 应 用 系统 。 我 尽力 结合 我 所 知道 的 以 及 
过 去 多 年 在 HBase 相关 工作 中 和 研究 生 学习 中 得 到 的 ， 提 取 精 华 写 到 
你 现在 读 的 这 本 书 中 。 多 年 来 HBase 走 了 很 长 的 路 ， 许 多 大 公司 使 用 
它 作 为 核心 系统 。 它 比 以 往 更 加 稳定 、 快 速 和 易于 维护 ，1.0 版 本 也 接 
近 发 布 了 。 


我 们 写 这 本 书 的 目的 就 古 希 望 学 习 HBase 可 以 更 加 有 革 可 循 ， 更 
加 容易 ， 更 加 有 趣 。 等 你 过 一 步 了 解 HBase 以 后 ， 我 们 吉 励 你 参与 到 
社区 中 来 ， 你 可 以 学 到 更 多 在 这 本 书 中 没有 讲 到 的 。 你 可 以 发 表 博 
客 ， 页 献 代 码 ， 分 诗经 验 ， 让 我 们 一 起 推动 这 个 伟大 的 项 目 向 各 种 可 
能 的 方 同 走 得 更 进 。 打 开 书 ， 开 始 阅 读 ， 欢 迎 来 到 HBase 世 界 ! 


Amandeep Khurana 


致谢 


编写 这 本 书 时 ， 我 们 一 直 谦 示 地 提醒 上 自己: 我 们 站 在 了 巨人 的 己 
上 。 如 果 没 有 10 年 前 Google 发 表 的 那些 论文 ， 束 不 会 有 HBase 和 
Hadoop。 如 采 没 有 那些 受 这 些 论文 启发 并 想 办 法 解决 自己 挑战 的 人 ， 
就 不 会 有 HBase。 无 论 是 过 去 还 是 现在 ， 我 们 要 对 每 一 个 HBase 和 
Hadoop 的 贡献 者 说 : 谢谢 你 。 我 们 尤其 要 感谢 HBase 的 代码 提交 者 。 
你 们 往 这 个 世界 上 最 先 韦 的 数据 技术 项 目 里 不 断 地 投入 时 间 和 精力 。 
更 令 人 惊讶 的 是 ， 你 们 把 努力 的 结果 贡献 给 了 广大 的 社区 。 谢 谢 你 
人 

没有 整个 HBase 社 区 就 不 可 能 有 这 本 书 。HBase 拥 有 着 NoSQL 领 域 
最 大 的 、 最 活 距 的 、 最 热情 的 用 户 社区 之 一 。 我 们 还 要 感谢 邮件 列表 
中 每 个 提问 题 的 人 和 耐心 回答 问题 的 人 。 你 们 的 热情 和 回答 问题 的 意 
愿 从 一 开始 残 或 励 大 家 参与 迎 来 。 你 们 所 提 的 问题 和 所 需要 的 帮助 许 
多 是 我 们 在 书 中 提炼 和 澄清 的 内 容 的 基础 。 我 们 和 希望 能 够 扩大 HBase 
的 影响 力 并 且 帮 助 HBase 的 拥护 者 。 

我 们 要 特别 感谢 在 这 个 过 程 中 帮助 我 们 的 许多 HBase 代码 提交 者 
和 社区 会 员 。 特 别 感谢 Michael Stack、Lars George、Josh Patterson 和 
Andrew Purtell， 感 谢 你 们 的 豆 励 ， 也 感谢 你 们 提示 我 们 这 本 书 给 社区 
带 来 的 价值 。 感 谢 Ian Varley、Jonathan Hsieh 和 Omer Trajman， 感 谢 你 
们 贡献 思路 和 反馈 建议 。Benoit Sigoure 审核 了 OpenTSDB 那 一 章 (第 
7 章 ) 和 asynchbase 那 一 节 (6.5 方 ) ， 谢 谢 你 贡献 的 代码 和 评论 。 感 谢 
Michael 为 本 书 作 友 ， 感 谢 Lars 撰 写 了 “ 致 HBase 社 区 的 一 封 信 ”。 


我 们 还 要 感谢 我 们 各 目的 公司 Cloudera, Inc. 和 The Climate 
Corporation， 你 们 不 仅 文 持 我 们 ， 而 且 或 励 我 们 ， 没 有 你 们 不 可 能 完 
成 这 本 书 。 

我 们 要 感谢 Manning 出 版 社 的 编辑 Renae Gregoire 和 Susanna 
Kline。 你 们 目睹 了 这 本 书 从 毫 无 头绪 地 开始 到 成 功 地 完成 的 整个 过 
程 。 我 们 认为 你 们 其 他 的 项 目 不 会 像 我 们 这 个 如 此 令 人 兴 理 ! 感谢 我 
们 的 技术 编辑 Mark Henry Ryan 以 及 技术 校对 Jerry Kuch 和 Kristine 
Kuch。 

下 面 的 人 在 编写 本 书 的 各 个 阶段 阅读 和 审核 了 书稿 ， 感 谢 你 们 提 
供 了 富有 洞察 力 的 反馈 意见 : Aaron Colcord、Adam Kawa、Andy 
Kirsch 、 BobbyAbraham 、 Bruno Dumon 、 Charles Pyle ~ Cristofer 
Weber ~、 Daniel Bretoi ~、 Gianluca Righetto ~ Ian Varley ~、 John Griffin 、 
Jonathan Miller ~、 Keith Kim ~、 Kenneth DeLong 、 Lars Francke ~、 Lars 
Hofhansl ~ Paul Stusiak ~、 Philipp K. Janert ~、 Robert J. Berger 、 Ryan 
Cox 、 Steve Loughran ~、 Suraj Varma 、 Trey Spiva 和 Vinod Panicker 。 

最 后 也 是 最 重要 的 一 一 没有 家 人 和 朋友 的 认可 我 们 什么 也 做 不 
了 ， 没 有 爱 我 们 的 人 的 文 持 我 们 完成 不 了 这 本 书 。 谢 谢 你 们 在 整个 过 
程 中 的 文 持 和 耐心 。 


关于 本 书 
HBase 建 立 在 Apache Hadoop 和 Apache ZooKeeper 这 些 复杂 的 分 布 
式 系统 之 上 。 虽 说 你 不 必 成 为 所 有 这 些 技 术 的 专家 才 可 以 有 效 使 用 
HBase， 但 是 理解 这 些 基础 层面 的 知识 有 助 于 充分 利用 HBase。 这 些 技 
术 受 了 Google 发 表 的 论文 局 发 。 这 些 技术 是 Google 的 这 些 出 版 物 中 所 
措 述 的 技术 的 开源 实现 。 阅 读 这 些 专 业 论 文 对 于 使 用 HBase 或 其 他 这 
些 技 术 虽 说 不 是 必要 条 件 ， 但 是 当 你 学 习 一 种 技术 ， 了 解 司 发 它们 发 
明 的 源头 总 是 有 用 的 。 尽 管 本 书 不 要 求 你 熟悉 这 些 技 术 ， 也 不 要 求 你 
读 过 相关 论文 。 
《HBase 实 战 》 定 位 是 HBase 的 用 户 指南 。 它 不 会 涉足 HBase 内 部 
工作 机 制 ， 也 不 会 涉足 理解 Hadoop 生 态 系统 所 必需 的 广泛 话题 。 
《HBase 实 战 》 专 注 于 一 点 : 使 用 HBase。 它 会 指导 你 在 HBase 上 搭建 
应 用 系统 ， 并 且 在 生产 环境 中 使 用 这 个 应 用 系统 。 同 时 ， 你 会 学 到 一 
些 HBase 实 施 细 广 。 你 也 会 锅 悉 Hadoop 的 其 他 产品 。 你 会 学 习 足 够 的 
知识 来 理解 HBase 的 工作 方式 ， 并 问 一 些 聪明 的 问题 。 本 书 不 会 把 你 
培养 成 HBase 的 Committer (代码 提交 者 ) ， 但 会 教 你 HBase 的 实战 技 
七。 
路 线 图 
《HBase 实 战 》 分 为 4 个 部 分 。 前 两 个 部 分 介绍 如 何 使 用 HBase 。 
在 6 章 的 篇 幅 里 ， 你 会 从 一 个 新 手 成 长 为 可 以 在 HBase 上 熟练 编程 的 
人 。 在 这 个 过 程 中 ， 你 会 学 到 HBase 的 基本 原理 、 模 式 设计 以 及 如 何 
使 用 HBase 的 高 级 特性 。 最 重要 的 是 ， 你 将 学 会 用 HBase 的 方式 思考 。 


第 三 部 分 有 两 章 ， 介 绍 一 些 应 用 示例 ， 证 你 体会 一 下 实际 应 用 是 什么 
样子 。 第 四 部 分 指导 你 如 何 把 原型 开发 系统 升级 为 羽 必 丰满 的 生产 系 
统 。 

第 1 章 总 体 介绍 Hadoop、HBase 和 NoSQL 的 起 源 。 我 们 将 介绍 
HBase 是 什么 和 不 是 什么 ， 把 HBase 和 其 他 NoSQL 数 据 库 迎 行 对 比 ， 介 
绍 一 些 通用 的 使 用 场景 。 我 们 会 帮 你 判断 对 于 你 的 项 目 和 公司 来 说 
HBase 是 否 是 正确 的 技术 选择 。 第 1 章 包括 简单 安装 HBase 和 开始 存储 
一 点 儿 数 据 。 

第 2 章 开 始 运行 一 个 示例 应 用 。 通 过 这 个 例子 ， 我 们 探讨 使 用 
HBase 的 基础 知识 。 包 括 创 建 表 、 存 取 数 据 以 及 HBase 的 数据 模型 。 
我 们 也 会 深入 探讨 HBase 的 内 部 工作 机 制 ， 理 解 HBase 如 何 组 织 数 
据 ， 以 及 在 你 的 应 用 中 如 何 利 用 这 些 知 识 。 

第 3 章 作 为 一 个 分 布 式 系统 重新 介绍 HBase。 本 章 探讨 HBase、 
Hadoop 和 ZooKeeper 之 间 的 关系 。 你 会 学 到 HBase 的 分 布 式 架构 以 及 如 
何 转换 成 一 个 强大 的 分 布 式 数据 系统 。 动 手 练习 示例 中 会 探讨 在 
HBase 上 使 用 Hadoop MapReduce 的 使 用 场景 。 

第 4 章 专 门 针 对 HBase 模 式 设计 。 我 们 用 示例 应 用 来 探讨 这 个 复杂 
的 主题 。 你 会 看 到 表 设 计 决 策 是 如 何 影响 应 用 的 ， 以 及 如 何 避 免 常见 
错误 。 我 们 会 把 一 些 天 系 型 数据 库 知 识 轴 射 到 HBase 世 界 里 。 你 还 会 
看 到 如 何 使 用 服务 器 端 过 滤器 (server-side filter) 来 速 一步 完 善 模式 
设计 。 这 一 章 也 涵盖 HBase 的 高 级 物理 配置 选项 。 

第 5 章 介 绍 协 处 理 器 (coprocessor) ， 这 是 一 种 把 计算 推 向 HBase 
集群 的 计算 机 制 。 你 会 用 两 种 不 同 的 方式 扩展 示例 应 用 ， 在 集群 上 构 
建 应 用 的 新 特性 。 

第 6 章 全 面 、 快 速 地 介绍 可 选 的 HBase 客 户 端 。HBase 是 用 Java 编 
写 的 ， 但 这 并 不 意味 着 你 的 应 用 必须 是 用 Java 编 写 的 。 你 可 以 用 各 种 
编程 语言 和 不 同 的 网 络 协议 来 访问 示例 应 用 。 


第 三 部 分 从 第 7 章 开 始 ， 将 开始 构建 一 个 真实 的 、 可 以 投入 生产 环 
境 的 应 用 系统 。 你 会 了 解 这 个 应 用 系统 打算 解决 的 问题 和 特别 的 挑 
战 。 然 后 我 们 深入 到 实现 过 程 中 ， 在 技术 细节 上 做 全 面 考 虚 。 也 就 是 
说 ， 从 前 端 到 后 端 全 面 探讨 如 何在 HBase 上 搭建 应 用 系统 。 

第 8 章 介绍 如 何在 一 个 新 领域 里 使 用 HBase。 我 们 将 带 你 快速 地 入 
这 个 新 领域 一 一 GIS， 然 后 教 你 如 何 基 于 HBase 使 用 一 种 可 扩展 的 方式 
来 面 对 这 个 领域 里 特别 的 挑战 。 这 一 章 的 焦点 在 于 针对 特定 领域 的 模 
式 设计 以 及 最 大 化 利用 扫描 (scan) 和 过 滤器 (filter) 特性 。 之 前 可 
以 没有 GIS 经 验 ， 但 是 要 准备 好 充分 运用 前 面 章 市 学 习 的 知识 。 

在 第 四 部 分 ， 第 9 章 将 部 署 你 的 HBase 集群 。 从 头 开 始 ， 我 们 教 
你 如 何 着 手 妃 行 HBase 部 署 。 这 一 章 将 探讨 硬件 的 种 类 、 数 量 和 如 何 
分 配 硬件 。 考 虑 云 服 务 吗 ? 我 们 也 会 谈 到 。 硬 件 确定 以 后 ， 我 们 为 你 
介绍 如 何 为 一 个 基本 部 署 配置 集群 ， 如 何 让 集群 正常 启动 运行 。 

第 10 章 将 把 你 的 部 署 升级 到 生产 水 平 。 我 们 教 你 通过 参数 和 监控 
工具 来 监控 集群 。 你 会 了 解 到 如 何 根据 你 的 应 用 负载 来 迪 一 步 优化 集 
群 的 性 能 。 我 们 教 你 如 何 管理 集群 ， 如 何 保持 集群 健康 运行 ， 有 问题 
时 如 何 诊断 和 处 理 ， 有 需要 时 如 何 升 级 ， 等 等 。 你 将 学 习 使 用 附带 的 
工具 来 管理 数据 的 备份 和 恢复 ， 以 及 如 何 配 置 多 集群 间 的 复制 工作 。 

目标 读者 

本 书 是 一 本 数据 库 的 用 户 实践 手册 。 因 此 ， 它 的 主要 受众 群体 是 
布 望 快速 掌握 HBase 的 应 用 开发 人 员 和 技术 染 构 师 。 本 书 实践 多 于 理 
论 ， 使 用 技巧 多 于 原理 研究 。 本 书 的 用 途 是 开发 人 员 指 南 ， 而 不 是 学 
生 教科 书 。 本 书 也 会 介绍 部 署 和 运 维 的 基本 知识 ， 所 以 对 于 运 维 工程 
师 来 说 也 能 起 到 一 定 的 帮助 。 (坦白 说 ， 面 向 运 维 人 员 的 HBase 方 面 
的 书 还 没有 编写 。) 

HBase 是 用 Java 编 写 的 ， 运 行 在 JVM 上 面 。 我 们 希望 你 熟悉 类 似 于 
类 文件 和 JAR 这 样 的 Java 编 程 语言 和 JVM 概 念 。 我 们 也 假定 你 基本 掌 


握 一 些 JVM 工 具 ， 特 别 是 Maven， 因 为 书 中 的 源 代码 使 用 这 个 软件 管 
理 。Hadoop 和 HBase 运 行 在 Linux 和 UNIX 系 统 上 ， 因 此 需要 你 掌握 
UNIX 的 基本 知识 。HBase 不 支持 Windows 控 作 系 统 ， 本 书 也 不 支持 。 
Hadoop 方 面 的 经 验 会 有 帮助 ， 尺 管 不 是 必需 的 。 在 这 个 领域 ,天 系 型 
数据 库 无 处 不 在 ， 所 以 我 们 假定 你 理解 相关 技术 的 概念 。 

HBase 是 一 种 分 布 式 系统 ， 使 用 了 分 布 式 、 并 行 计算 技术 。 项 望 
你 理解 并 行 编程 的 基本 概念 ， 如 多 线程 和 并 发 迎 程 等 。 我 们 不 要 求 你 
知道 如 何 编写 并 行 计算 程序 ， 但 是 你 应 该 熟悉 并 发 执行 线程 的 思路 。 
本 书 重 心 不 在 算法 理论 ， 但 是 任何 操作 TB 或 PB 级 数据 的 人 都 应 该 对 浙 
加 计 算 的 时 间 复 杂 度 有 概念 。 在 模式 设计 的 那 一 章 中 大 OO 标记. 出 会 频 
频 出 现 。 

代码 约定 

和 我 们 编写 一 本 实战 书籍 的 目标 相 一 致 ， 你 会 发 现 我 们 上 自由 混合 
文字 和 代码 。 有 时 段落 间 只 有 两 行 代码 。 我 们 的 指导 思路 是 只 在 有 必 
要 时 才 展 示 给 你 如 何 使 用 API， 然 后 提供 额外 的 细节 。 这 些 代码 片段 
将 随 着 章节 内 容 发展 和 演变 。 我 们 总 是 在 小 结 一 章 时 ， 给 出 代码 的 完 
整 列表 ， 提 供 充 分 的 上 下 文 背景 。 我 们 侦 尔 使 用 类 Python 风格 的 盆 代 
码 来 帮助 解释 。 这 主要 是 在 Java 代 码 中 使 用 了 太 多 样板 代码 或 者 其 他 
语言 噪音 以 致 于 干扰 了 预期 关键 点 的 场合 。 真 正 的 Java 实 现 一 般 紧 跟 
在 伪 代 码 后 面 提供 。 

因为 这 是 一 本 动手 的 书 ， 我 们 还 使 用 了 许多 命令 来 演示 系统 的 一 
些 方面 。 这 些 命令 包括 你 在 终端 输入 的 东西 和 你 期 望 从 系统 得 到 的 和 输 
出 。 软 件 系统 会 随 着 时 间 而 改变 ， 所 以 完全 有 可 能 在 我 们 打印 命令 和 输 
出 的 时 候 ， 输 出 的 内 容 有 些 变 化 。 不 过 ， 这 应 该 足以 引导 你 判断 系统 
预期 的 表现 。 


在 命令 和 源 代 码 部 分 ， 我 们 广泛 使 用 了 说 明文 字 和 注释 来 引起 你 
对 重要 内 容 的 注意 。 一 些 命令 输出 可 能 比较 密集 ， 尤 其 是 使 用 HBase 
Shell 时 ;使 用 说 明文 字 和 注释 做 引导 比较 清楚 。 文 本 中 的 代码 使 用 等 
宽 字 体 。 

代码 下 载 

我 们 所 有 的 源 代 码 ， 无 论 是 小 的 脚本 还 是 整个 应 用 程序 ， 都 可 以 
下 载 并 且 开 源 。 我 们 已 经 把 它们 在 Apache License Version 2.0 下 发 
布 ， 与 HBase 一 样 的 授权 方式 。 你 可 以 在 GitHub 专 门 为 本 书 建 立 的 网 
站 www.github.com/HBaseinaction 上 找到 源 代码 。 在 那里 每 个 项 目 都 是 
完整 的 应 用 程序 。 你 也 可 以 从 出 版 商 的 网 站 
www.manning.com/HBaseinaction 上 下 载 代 码 。 

遵循 开源 的 精神 ， 我 们 希望 我 们 的 示例 代码 在 你 的 应 用 中 有 用 。 
我 们 鼓励 你 使 用 、 修 改 、 发 展 并 与 别人 分 享 它 们 。 如 果 你 发 现 错误 ， 
请 让 我 们 知道 ， 或 者 是 提交 问题 ， 或 者 更 好 是 修正 问题 。 开 源 社区 常 
说 : 欢迎 补丁 ° 


第 一 部 分 HBase 基 础 


本 书 前 三 章 介绍 HBase 的 基本 原理 。 第 1 章 大 体 上 回顾 一 下 数据 库 
技术 的 演变 ， 并 介绍 HBase 出 现 的 特定 背景 。 

第 2 章 通 过 建立 一 个 应 用 示例 一 一 TwitBase 来 讲授 HBase 的 基础 知 
识 。 通 过 这 个 示例 ， 你 可 以 学 习 如 何 访 问 HBase 以 及 如 何 设 计 HBase 的 
模式 (schema) ， 你 会 催 单 地 了 解 到 在 应 用 系统 中 如 何 有 歼 使 用 
HBase。 

HBase 是 一 种 分 布 式 系统 ， 我 们 在 第 3 章 会 探讨 分 布 式 架构 。 你 将 
学 习 到 HBase 如 何在 集群 中 管理 你 的 数据 以 及 如 何 使 用 MapReduce 访问 
HBase。 到 第 一 部 分 结束 ， 你 就 能 掌握 搭建 HBase 应 用 系统 所 需 的 基本 
知识 了 。 


第 1 章 HBase 介绍 


本 章 涵盖 的 内 容 

加 Hadoop、HBase 和 NoSQL 的 起 源 

国 HBase 的 常见 使 用 场景 

四 HBase 的 基本 安装 

加 (使 用 HBase 存储 和 查询 数据 

HBase 是 一 种 数据 库 : Hadoop 数据 库 。 它 经 常 被 描述 为 一 种 稀 下 C 
的 、 分 布 式 的 、 持 久 化 的 、 多 维 有 序 映射 ， 它 基于 行 键 (rowkey) 、 
列 刍 (column key) 和 时 间 故 (timestamp) 建立 索引 。 人 们 会 说 它 是 一 


种 键 值 (key value) 存储 、 面 向 列 族 的 数据 库 ， 有 时 也 是 一 种 存储 多 时 
间 稚 版 本 映射 的 数据 库 。 所 有 这 些 描述 都 是 正确 的 。 但 是 从 根本 上 
讲 ， 它 是 一 个 可 以 随机 访问 的 存储 和 检索 数据 的 平台 ， 也 整 古 说 ， 你 
可 以 按照 需要 写 入 数据 ， 然 后 再 按照 需要 读 取 数 据 。HBase 可 以 自如 
地 存储 结构 化 和 半 结 构 化 的 数据 ， 所 以 你 可 以 录入 微 博 、 解 析 好 的 日 
志文 件 或 者 全 部 产品 目录 及 其 用 户 评价 。 它 也 可 以 存储 非 结 构 化 数 
据 ， 只 要 不 是 特别 大 。 它 不 介意 数据 类 型 ， 允 许 动态 的 、 灵 活 的 数据 
模型 ， 并 不 限制 存储 的 数据 的 种 类 。 

HBase 不 同 于 你 可 能 已 经 习惯 的 关系 型 数据 库 。 它 不 用 SQL 语言 ， 
也 不 强调 数据 之 间 的 关系 。HBase 不 允许 跨行 的 事务 ， 你 可 以 在 一 行 的 
某 一 列 存储 一 个 整数 而 在 另 一 行 的 同一 列 存储 字符 串 。 

HBase 被 设计 成 在 一 个 服务 瑚 集群 上 运行 ， 而 不 是 单 侣 服务 右 。 集 
群 可 以 由 普通 硬件 构建 ， 当 把 更 多 机 器 加 入 集群 时 ，HBase 可 以 相应 地 
横 回 扩展 。 集 群 中 的 每 个 节点 提供 一 部 分 存储 空间 、 一 部 分 缓存 和 一 
部 分 计算 能 力 ， 因 此 HBase 难 以 想象 地 灵活 和 宽容 。 因 为 没有 独一无二 
的 节点 ， 所 以 某 一 人 台 机 器 坏 了 ， 只 需 简单 地 用 另 一 人 台 机 需 替 换 即 可 。 
这 意味 着 一 种 强大 的 、 可 扩展 的 使 用 数据 的 方式 ， 到 现在 为 止 , 一 直 
没有 官方 数据 说 明 它 的 扩展 上 限 。 

加 入 社区 

遗憾 的 是 ， 在 生产 环境 中 使 用 的 最 大 的 HBase 集群 没有 官方 的 公 
开 数 据 。 这 种 信息 容易 补 认 为 是 商业 机 密 而 受到 限制 ， 经 营 不 能 分 
享 。 眼 下 ， 你 只 能 在 用 户 群 组 、 聚 会 和 会 议 上 通过 出 版 物 的 脚注 、 弥 
灯 户 内容 或 者 是 友好 的 非 正 式 的 八卦 里 满足 一 下 好 奇 心 了 。 

那么 加 入 社区 吧 ! 这 古 正 确 的 选择 ， 我 们 也 是 这 样 参 与 进来 的 。 
HBase 是 一 个 非 肖 专 业 领域 里 的 开源 项 目 。 尺 礼 HBase 面 对 世界 上 最 大 
儿 家 软件 公司 的 苋 争 ， 但 是 该 项 目的 财务 状况 民 好 。 是 社区 创 迁 了 
HBase， 也 是 社区 使 它 保持 竞争 能 力 和 创新 能 力 。 另 外 ， 这 是 一 个 智慧 


的 、 友 好 的 群体 。 最 好 的 开始 方式 是 加 入 邮件 列表 是 。 你 可 以 从 JIRA 
网 站 得 到 进展 中 的 产品 特性 、 增 强 和 Bug 等 情况 的 信息 。 这 有 是 个 开 
源 的 、 协 作 的 项 目 ， 正 是 像 你 这 样 的 用 户 决定 着 项 目的 方向 和 发 展 。 

走 上 前 去 ， 告 诉 他 们 ， 你 来 了 ! 

HBase 是 设计 和 目标 都 与 传统 关系 型 数据 库 不 同 的 系统 ， 使 用 
HBase 构 建 应 用 也 需要 不 同 的 方法 。 本 书 就 是 专门 教 你 怎样 使 用 HBase 
提供 的 特性 来 构建 处 理 海量 数据 的 应 用 的 。 在 开始 学 习 使 用 HBase 之 
前 ， 我 们 先 从 历史 的 角度 来 看 看 HBase 是 怎么 出 现 的 ， 以 及 其 背后 的 驱 
动力 。 然 后 我 们 再 看 看 人 们 使 用 HBase 解 决 问题 的 成 功 案 例 。 可 能 你 和 
我 们 一 样 ， 在 深入 研究 之 前 想 试用 一 下 HBase。 最 后 我 们 会 指导 你 在 目 
己 的 笔记 本 电脑 上 安装 HBase， 存 些 数据 进去 ， 跑 跑 看 看 。 学 习 
HBase， 了 解 大 背景 很 重要 ， 让 我 们 先 从 数据 库 的 演变 历史 开始 。 


1.1 理 系统 : 速成 


天 系 型 数据 库 系统 已 经 存在 儿 十 年 了 ， 多 年 来 在 解决 数据 存储 、 
服务 和 处 理 问题 方面 取得 了 巨大 的 成 功 。 一 些 大 型 公司 使 用 关系 型 数 
据 库 建立 了 目 己 的 系统 ， 比 如 联机 事务 处 理 系 统 和 后 端 分 析 应 用 系 


联机 事务 处 理 (OLTP) 系统 用 来 实时 记录 交易 信息 。 对 这 类 系统 
的 期 望 是 能 够 快速 返回 响应 信息 ， 一 般 是 在 毫秒 级 。 例 如 ， 和 雯 售 商店 
的 收银 机 在 客户 购买 和 付款 时 需要 实时 记录 相应 信息 。 银 行 拥有 大 型 
OLITP 系 统 ， 用 来 记录 客户 之 间 转 账 之 类 的 交易 信息 ， 但 OLTP 不 仅仅 用 
于 资金 交易 ， 像 LinkedIn 这 样 的 互联 网 公司 也 需要 这 样 的 系统 ， 例 如 ， 
当 用 户 连 接 其 他 用 户 时 也 会 用 到 。OLTIP 中 的 transaction 指 的 是 数据 库 语 
境 中 的 事务 ， 而 不 是 金融 交易 。 


联机 分 析 处 理 (OLAP) 系统 用 来 分 析 碍 询 所 存储 数据 。 在 零售 商 
那里 ， 这 种 系统 意味 着 按 天 、 按 周 、 按 月 生成 销售 报表 ， 按 产品 和 按 
地 域 从 不 同 角度 分 析 信 息 。OLAP 属 于 商业 智能 的 范畴 ， 数 据 需 要 人 研 
完 、 处 理 和 分 析 ， 以 便 收 集 信 息 ， 进 一 步 豫 动 商 业 决 策 。 对 于 LinkedIn 
这 样 的 公司 ， 连 接 关 系 的 建立 可 以 看 做 事务 ,分 析 用 户 关 系 图 的 连通 
性 以 及 生成 每 用 户 平均 联系 数量 这 种 信息 的 报表 就 属于 商业 智能 ， 这 
种 处 理 很 可 能 需要 使 用 OLAP 系 统 。 

无 论 是 开源 的 还 是 商业 版 权 的 关系 型 数据 库 ， 都 已 经 成 功 地 用 于 
这 样 的 使 用 场景 。 这 一 点 通过 Oracle、Vertica、Teradata 等 公司 的 财务 
报表 可 以 清楚 地 看 到 。 微 软 公司 和 IBM 公 司 也 占有 一 定 份额 >。 所 有 这 
些 系 统 提 供 全 面 的 ACID Bl 保证。 一 些 系统 扩展 性 要 优 于 其 他 系统 ; 一 
些 系统 是 开源 的 ， 还 有 一 些 需要 文 付 僵 张 的 许可 费用 。 

关系 型 数据 库 的 内 部 设计 由 关系 算法 决定 ， 这 些 系统 需要 预先 定 
义 一 个 模式 (schema) 和 数据 要 遵守 的 类 型 。 随 着 时 间 的 推移 ，SQL 
成 了 与 这 些 系统 交互 的 标准 方式 ， 被 广泛 使 用 了 许多 年 。 与 使 用 编程 
语言 编写 定制 访问 代码 相 比 ，SQL 语 句 更 容易 写 ， 花 费时 间 也 要 少 得 
多 。 但 并 不 是 所 有 情况 下 SQL 都 是 表达 访问 模式 的 最 好 方式 ， 比 如 对 
象 -关系 不 匹配 问题 出 现 的 场合 。 

计算 机 科学 中 的 问题 都 可 以 通过 改变 使 用 方式 来 解决 。 解 决 对 象 - 
关系 不 匹配 问题 也 没有 什么 不 同 ， 最 终 可 以 通过 重建 框架 来 解决 。 

1.1.1 你 好 ， 大 数据 

让 我 们 认真 看 看 大 数据 这 个 术语 。 说 实话 ， 这 是 一 个 过 分 吹 氛 的 
术语 ， 很 多 商业 化 的 企业 都 会 使 用 它 来 进行 市 场 彰 销 。 我 们 这 里 尽量 
让 讨论 接点 儿 地 气 。 

什么 是 大 数据 ? 关于 大 数据 的 定义 有 好 儿 种 ， 我 们 认为 没有 哪 一 
种 定义 清晰 地 解释 了 这 个 术语 。 比 如 ， 一 些 定 义 说 大 数据 意味 着 数据 


足够 大 ， 为 了 从 这 些 数据 中 获得 一 些 真 知 灼 见 ， 你 不 得 不 研究 它 ; 兄 
一 些 说 大 数据 束 是 不 再 适用 于 单 台 机 妖 的 数据 。 这 些 定义 从 他 们 各 日 
的 角度 来 看 是 准确 的 ， 但 并 不 完整 。 我 们 的 观点 是 ， 我 们 需要 用 一 种 
根本 上 不 同 的 方式 来 考虑 数据， 从 如 何 驱 动 商 业 价 值 的 角度 来 考虑 数 
据 ， 这 种 数据 就 是 大 数据 。 传 统 上 ， 有 联机 事务 处 理 系统 (OLTP) 和 
联机 分 析 处 理 系统 (OLAP) 。 但 是 ， 事 务 处 理 背 后 的 原因 是 什么 ? 是 
什么 因素 促成 业务 发 生 ? 又 是 什么 直接 影响 了 用 户 行为 ? 我 们 缺乏 这 
样 的 洞察 力 。 以 早期 的 LinkedIn 为 例 ， 这 种 使 用 数据 的 方式 可 以 理解 
为 : 基于 用 户 属性 、 用 户 之 间 的 二 度 关 系 、 浏 览 行 为 等 寻找 可 能 认识 
的 人 ， 然 后 主动 推荐 并 引导 用 户 联系 他 们 。 有 效 地 寻求 这 种 主动 推荐 
行为 显然 需要 大 量 的 各 种 各 样 数 据 。 

这 种 新 型 数据 使 用 方式 首先 为 Google 和 Amazon 等 互联 网 公司 采 
用 ， 随 后 是 Yahoo! 和 Facebook 跟 进 。 这 些 公司 需要 使 用 不 同 种 类 的 数 
据 ， 经 常 是 非 结 构 化 的 或 者 半 结 构 化 的 数据 〈 如 用 户 访问 网 站 的 日 
志 ) 。 这 需要 系统 处 理 比 传统 数据 分 析 高 了 几 个 数量 级 的 数据 。 传 统 
天 系 型 数据 库 能 够 纵向 扩展 到 一 定 程度 来 面 对 一 些 使 用 场景 ， 但 这 样 
做 经 常 意味 着 昂贵 的 许可 费用 和 复杂 的 应 用 逻辑 。 

但 是 受制 于 天 系 型 数据 库 提 供 的 数据 模型 ， 对 于 逐渐 出 现 的 、 未 
预先 定义 模式 (schema) 的 数据 集 ， 关 系 型 数据 库 不 能 很 好 地 工作 。 
系统 需要 能 够 适应 不 同 种 类 的 数据 格式 和 数据 源 ， 不 需要 预先 严格 定 
义 模式 ， 并 且 能 够 处 理 大 规模 数据 。 系 统 需求 发 生 了 巨大 变化 ， 互 联 
网 移 张 不 得 不 走 回 画图 板 ， 重 新 设计 数据 库 ， 他 们 这 样 做 了 。 大 数据 
系统 和 NoSQL 的 上 明光 出 现 了 。 《〈 有 人 可 能 会 说 明光 出 现 的 时 间 点 还 要 
再 晚 一 些 ， 这 并 不 重要 ， 这 的 确 标志 着 大 家 开始 以 不 同方 式 思 考 数据 
TT 

作为 数据 管理 系统 创新 的 一 部 分 ， 出 现 了 几 种 新 技术 。 每 种 新 技 
术 都 适用 于 不 同 的 使 用 场景 ， 有 着 不 同 的 设计 前 提 和 功能 要 求 ， 也 有 


着 不 同 的 数据 模型 。 
什么 时 候 会 谈 到 HBase 呢 ? 是 什么 促使 了 这 个 系统 的 创立 呢 ? 请 看 
下 一 节 介 绍 。 
1 包 


我 们 知道 ， 许 多 杰出 的 互联 网 公司 ， 如 最 突出 的 Google 、 
Amazon、Yahoo!、Facebook 等 ， 都 处 于 这 场 数 据 大 爆炸 的 最 前 沿 。 一 
些 公 司 目 己 生成 数据 ， 还 有 一 些 公 司 收 集 免 费 可 获得 的 数据 ;但 是 管 
理 这 些 海量 的 不 同 种 类 的 数据 成 为 他 们 推进 业务 发 展 的 关键。 开始 阶 
段 他 们 都 采用 了 当时 可 用 的 关系 型 数据 库 技 术 ， 但 是 这 些 技术 的 局 限 
性 随后 成 了 他 们 继续 发 展 和 业务 成 功 的 障碍 。 尽 管 数据 管理 撤 术 不 是 
他 们 业务 的 核心 ， 但 却 是 推进 业务 的 基础 。 因 此 ， 他 们 大 量 投资 于 新 
技术 研究 领域 ， 融 来 了 许多 新 数据 技术 的 突破 。 

很 多 公司 都 对 目 己 的 研究 成 果 严 格 你 窗 ， 但 是 Google 选 择 公 开讲 
述 他 的 伟大 技术 。Google 发 表 了 震撼 性 的 Google 文 件 系 统 (Google File 
System) .4 和 MapReduce bl 的 论文 。 两 者 结合 展示 了 一 种 全 新 的 存储 
和 处 理 数据 的 方法 。 此 后 不 久 ，Google 发 表 了 BigTable 1 外 的 论文 ， 对 
基于 Google 文 件 系统 的 存储 范 型 提供 了 补充 。 其 他 公司 也 参与 进来 ， 
公布 了 各 目的 成 功 技术 的 想法 和 做 法 。Google 的 论文 提供 了 对 于 如 何 
建立 互联 网 索引 的 深刻 理解 ，Amazon 公 布 了 Dynamo_ 必 ， 解 密 了 网 上 
购物 车 的 基本 组 件 。 

不 久 ， 所 有 这 些 新 想法 都 被 浓缩 到 开源 实践 中 。 接 下 来 的 几 年 ， 
数据 管理 领域 出 现 了 形形色色 的 项 目 。 一 些 项 目 关注 快速 键 值 (key- 
value) 存储 ， 而 另外 一 些 关 注 内 置 数据 结构 或 者 基于 文档 的 抽象 化 。 
同样 多 种 多 样 的 是 这 些 撤 术 可 以 文 持 的 预期 访问 模式 和 数据 量 。 一 些 
项 目 其 至 放弃 写 数据 到 硬盘 ， 为 了 性 能 而 牺牲 当前 的 数据 持久 化 。 大 
多 数 技术 不 能 保证 支持 受 推 深 的 ACID。 尽 管 有 一 些 是 商业 版 权 产 品 ， 


但 是 绝 大 多 数 这 类 技术 都 是 开源 项 目 。 因 此 ， 这 些 技术 作为 整体 被 称 
为 NoSQL 。 

HBase 适 于 什么 场合 呢 ? HBase 的 确 被 称 为 NoSQL 数 据 库 。 它 提供 
了 键 什 API， 尽 管 有 些 变化 ， 与 其 他 键 值 数据 库 有 些 不 同 。 它 承 庄 强 一 
致 性 ， 所 以 客户 端 能 够 在 写 入 后 马上 看 到 数据 。HBase 运 行 在 多 个 蔬 扣 
组 成 的 集群 上 ， 而 不 是 单 台 机 器 。 它 对 客户 端 隐藏 了 这 些 细 和 。 你 的 
应 用 代码 不 需要 知道 它 在 访问 1 个 还 是 100 个 点， 对 每 个 人 来 说 事情 
变 得 简单 了 。HBase 被 设计 用 来 处 理 TB 到 PB 级 数据 ， 它 为 这 种 场景 做 
了 优化 。 它 是 Hadoop 生态 系统 的 一 部 分 ， 依 徘 Hadoop 其 他 组 件 提 供 
的 重要 功能 ， 例 如 数据 元 余 和 批 处 理 。 

了 解 了 大 背景 后 ， 我 们 再 专门 看 看 HBase 的 崛起 。 

1.1.3 HBase 的 崛起 

假设 你 正 忙 于 一 个 开源 项 目 ， 通 过 疏 网 站 和 建立 索引 来 搜索 互联 
网 。 你 有 一 个 实现 方案 ， 这 个 实现 方案 工作 在 一 个 小 集群 上 ， 但 是 需 
要 许多 手工 环 T。 再 假设 你 正人 忙于 这 个 项 目的 时 候 ，Google 发 表 了 数 
据 存 储 和 数据 处 理 框架 的 论文 。 显然 ， 你 会 猎 究 这 些 论文 ， 模 仿 它 们 
启动 一 个 开源 实现 。 好 吧 ， 你 不 打算 这 么 做 ,我们 当然 也 不 会 ， 但 是 
Doug Cutting 和 Mike Cafarella 了 驶 是 这 么 做 的 。 

Nutch 是 他 们 的 互联 网 搜索 开源 项 目 ， 脱 胎 于 Apache Lucene， 
Hadoop 就 是 在 Nutch 项 目 里 诞生 的 中 。 从 那 时 起 ，Yahoo! 开 始 关注 
Hadoop， 最 后 Yahoo! 招 募 了 Cutting 和 其 他 人 为 Yahoo! 全 职工 作 。 随 
后 ，Hadoop 从 Nutch 中 和 剥离 出 来 ， 最 后 成 为 Apache 的 顶级 项 目 。 随 春 
Hadoop 的 民 好 发 展 和 BigTable 论 文 的 发 表 ， 在 Hadoop 上 面 实 现 一 个 
BigTable 开 源 版 本 的 基础 工作 开始 了 。2007 年 ，Cafarella 发 布 了 实验 性 
代码 ， 开 源 的 BigTable。 他 称 其 请 HBase。 创 业 公 司 Powerset 决 定 页 献 


出 Jim Kellerman 和 Michael Stack 两 位 专家 专职 做 这 个 BigTable 的 模仿 产 
品 ， 回 馈 它 所 依赖 的 开源 社区 3。 

HBase 被 证 实 是 一 个 强大 的 工具 ， 尤 其 是 在 已 经 使 用 Hadoop 的 场 
合 。 在 其 “婴儿 期 * 的 时 候 ， 它 束 快 速 部 团 到 了 其 他 公司 的 生产 环境 并 
得 到 开发 人 员 的 支持 。 今 天 ，HBase 已 经 是 Apache 顶级 项 目 ， 有 着 从 
多 的 开发 人 员 和 兴旺 的 用 户 社 区 。 它 成 为 一 个 核心 的 基础 架构 部 件 ， 
运行 在 世界 上 许多 公司 (如 StumbleUpon 、Trend Micro、Facebook、 
Twitter、Salesforce 和 Adobe) 的 大 规模 生产 环境 中 。 

HBase 不 是 数据 管理 问题 的 ; “万 能 约 ”， 针 对 不 同 的 使 用 场景 你 可 
能 需要 考虑 其 他 的 技术 。 让 我 们 看 看 现在 HBase 是 如 何 使 用 的 ， 人 们 用 
它 构建 了 什么 类 型 的 应 用 系统 。 通 过 这 个 讨论 ， 你 会 知道 哪 种 数据 问 
题 适 合 使 用 HBase。 


1.2 HBase 使 用 # 功 


有 时 候 了 解 软 件 产品 的 最 好 方法 是 看 看 它 是 怎么 用 的 。 它 可 以 解 
决 什么 问题 和 这 些 解 决 方案 如 何 适 用 于 大 型 应 用 染 构 ， 这 些 能 够 告诉 
你 很 多 。 因 为 HBase 有 许多 公开 的 产品 部 署 案 例 ， 我 们 正好 可 以 这 人 么 
做 。 本 市 将 详细 介绍 一 些 成 功 使 用 HBase 的 使 用 场景 。 

注意 不 要 有 自我 限制 ， 认 为 HBase 只 能 在 这 些 使 用 场景 下 使 用 。 它 
是 一 个 很 新 的 技术 ， 根 据 使 用 场景 进行 的 创新 正 推动 着 该 系统 的 发 
展 。 如 果 你 有 新 想法 ， 认 为 HBase 提 供 的 功能 会 让 你 受益 ， 那 就 试 试 
吧 。 社 区 很 乐于 帮助 你 ， 也 会 从 你 的 经 验 中 学 习 。 这 正 是 开源 软件 精 
神 。 

HBase 模 仿 了 Google 的 BigTable， 让 我 们 先 从 典型 的 BigTable 问 题 
开始 : 存储 互联 网 。 


搜索 是 一 种 定位 你 所 关心 信息 的 行为 。 例 如 ， 搜 索 一 本 书 的 页 
码 ， 其 中 含有 你 想 读 的 主题 ， 或 者 搜索 网 页 ， 其 中 含有 你 想 找 的 信 
息 。 搜 索 含 有 特定 词语 的 文档 ， 需 要 查找 索引 ， 该 索引 提供 了 特定 词 
语 和 包含 该 词语 的 所 有 文档 的 映射 。 为 了 能 够 搜索 ， 首 先 必须 建立 索 
引 。Google 和 其 他 搜索 引擎 正 是 这 么 做 的 。 它 们 的 文档 库 是 整个 互联 
网 ， 搜 索 的 特定 词语 就 是 你 在 搜索 框 里 融入 的 任何 东西 。 

BigTable 和 模仿 出 来 的 HBase， 为 这 种 文档 库 提 供 存储 ，BigTable 
提供 行 级 访问 ， 所 以 朴 虫 可 以 插入 和 更 新 单个 文档 。 搜 索索 引 可 以 基 
于 BigTable 通 过 MapReduce 计 算 高 效 生 成 。 如 有 果 结 果 是 单个 文档 ， 可 以 
直接 从 BigTable 取出 。 文 持 各 种 访问 模式 是 影响 BigTable 设 计 的 关键 因 
素 。 图 1-1 显 示 了 互联 网 搜索 应 用 中 BigTable 的 关键 角色 。 


BigTable 的 
Web 搜 索 


BigTable 


建立 互联 网 索引 © 


中 把 虫 持续 不 断 地 抓 取 新 页 面 ， 这 些 
页 面 每 页 一 行 地 存储 到 BigTable 里 。 
Q@MapReduce 计 算 作 业 运 行 在 整 张 表 上 ， 
生成 索引 ， 为 网 络 搜索 应 用 做 准备 。 


搜索 互联 网 
加 用 户 发 起 网 络 搜索 请 求 。 用 户 
@@ 网 络 搜索 应 用 查询 建立 好 的 索引 ， 直 接 从 
BigTable 得 到 匹配 的 文档 。 

加 搜索 结果 提交 给 用 户 。 


图 1-1 使 用 BigTable 提供 网 络 搜索 结果 ， 非 常人 简单 。 扑 虫 收集 网 
页 ， 存 储 到 BigTable 里 ，MapReduce 计 算 作 业 扫 摘 全 表 和 后 成 搜索 索引 ; 
从 Bigtable 中 查询 搜索 结果 ， 展 示 给 用 户 


注意 为 简洁 起 见 ， 这 里 不 做 BigTable 原 作者 判定 。 我 们 强烈 推荐 
关于 Google File System、MapReduce 和 BigTable 三 大 论文 ， 如 果 你 对 
这 些 技术 感到 好 奇 ， 这 是 必 读 读物 。 你 不 会 失望 的 。 

讲 完 典型 HBase 使 用 场景 以 后 ， 我 们 来 看 看 其 他 使 用 HBase 的 地 
方 。 愿 意 使 用 HBase 的 用 户 数 量 在 过 去 几 年 里 迅猛 增长 。 部 分 原因 在 于 
HBase 广 品 变 得 更 加 可 徘 旦 性 能 变 得 更 好 ， 更 多 原因 在 于 越 来 越 多 的 公 
司 开 始 投 入 大 量 资源 来 文 持 和 使 用 它 。 随 着 越 来 越 多 的 丙 业 服务 供应 
商 提供 支持 ， 用 户 越发 自信 地 把 HBase 应 用 于 关键 应 用 系统 。 一 个 设计 
切 衷 是 用 来 存储 互联 网 持续 更 新 网 页 副本 的 技术 ， 用 在 互联 网 相关 的 
其 他 方面 也 是 很 合适 的 。 例 如 ，HBase 在 社交 网 络 公司 内 部 和 周围 各 种 
各 样 的 需求 中 找到 了 用 武之 地 。 从 存储 个 人 之 间 的 通信 信息 ， 到 通信 
信息 分 析 ，HBase 成 为 了 Facebook、Twitter 和 StumbleUpon 等 公司 的 
关键 基础 设施 。 

在 这 个 领域 ,HBase 有 3 种 主要 使 用 场景 ,但 不 限于 这 3 种 。 为 了 保 
持 本 方 位 单 明 了 ， 本 市 我 们 只 介绍 主要 的 使 用 场景 。 


1.2.2 抓 取 增 量 数据 


数据 通常 是 细水长流 的 ， 标 加 到 已 有 数据 库 以 备 将 来 使 用 ， 如 分 
析 、 处 理 和 服务 。 许 多 HBase 使 用 场景 属于 这 一 类 一 一 使 用 HBase 作 
为 数据 存储 ， 抓 取 来 自 各 种 数据 源 的 增 量 数据 。 例 如 ， 这 种 数据 源 可 
能 是 网 页 怜 虫 (我 们 讨论 过 的 BigTable 典 型 问题 ) ， 可 能 是 记录 用 户 看 
了 什么 广告 和 看 了 多 长 时 间 的 广告 效果 数据 ， 也 可 能 是 记录 各 种 参数 
的 时 间 序 列 数据 。 我 们 讨论 几 个 成 功 的 使 用 场景 ， 以 及 这 些 项 目 涉及 
的 公司 。 

1. 抓 取 监控 指标 : OpenTSDB 

服务 数 百 万 用 户 的 基于 Web 的 产品 的 后 台 基 础 设施 一 般 都 有 数 百 或 
数 千 台 服务 器 。 这 些 服务 器 承担 了 各 种 功能 一 一 服务 流量 ， 抓 取 日 


志 ， 和 存储 数据 ， 处 理 数据 ， 等 等 。 为 了 保证 产品 正常 运行 ， 监 控 服 务 
器 和 上 面 运行 的 软件 的 健康 状态 是 至 关 重 要 的 〈 从 OS 到 用 户 交 互 应 
用 ) 。 大 规模 监控 整个 环境 需要 能 够 采集 和 存储 来 自 不 同 数据 源 各 种 
监控 指标 的 监控 系统 。 每 个 公司 都 有 目 己 的 办 法 。 一 些 公 司 使 用 商业 
工具 来 收集 和 展示 监控 指标 ， 而 男 外 一 些 公司 采用 开源 框架 。 

StumbleUpon 创 建 了 一 个 开源 框架 ， 用 来 收集 服务 器 的 各 种 监控 指 
标 。 按 照 时 间 收 集 监 控 指标 一 般 被 称 为 时 间 序 列 数据 ， 也 就 是 说 ， 按 
照 时 间 顺 序 收 集 和 记录 的 数据 。StumbleUpon 的 开源 框架 叫做 
OpenTSDB， 它 是 Open Time Series Database (开放 时 间 序 列 数据 库 ) 
的 缩写 。 这 个 框架 使 用 HBase 作 为 核心 平台 来 存储 和 检索 所 收集 的 监控 
指标 。 创 建 这 个 框架 的 目的 是 为 了 拥有 一 个 可 扩展 的 监控 数据 收集 系 
统 ， 一 方面 能 够 存储 和 检索 监控 指标 数据 并 保存 很 长 时 间 ， 男 一 方面 
如 果 需 要 增加 功能 也 可 以 添加 各 种 新 监控 指标 。StumbleUpon 使 用 
OpenTSDB 监控 所 有 基础 设施 和 软件 ， 包 括 HBase 集群 目 身 。 
OpenTSDB 作 为 搭建 在 HBase 之 上 的 一 种 示例 应 用 ， 我 们 将 在 第 7 章 详 
细 介 绍 。 

2. 抓 取 用 户 交 互 数 据 : Facebook 和 StumbleUpon 

抓 取 监 控 指 标 是 一 种 使 用 方式 。 还 有 一 种 是 抓 取 用 户 交 互 数据 。 
如 何 跟 躁 数 百 万 用 户 在 网 站 上 的 活动 ? 怎么 知道 哪 一 个 网 站 功能 最 受 
欢迎 ? 怎样 使 得 这 一 次 网 页 浏览 直接 影响 到 下 一 次 ? 例如 ， 谁 看 了 什 
么 ? 某 个 按钮 被 点 击 了 多 少 次 ? 还 记得 Facebook 和 Stumble 里 的 Like 
按钮 和 StumbleUpon 里 的 +1 按钮 吗 ? 是 不 是 听 起 来 像 是 一 个 计数 问 
题 ? 每 次 用 户 喜 欢 一 个 特定 主题 ， 计 数 姻 增加 一 次 。 

StumbleUpon 在 开始 阶段 采用 的 是 MySQL， 但 是 随 着 网 站 服务 越 来 
越 流 行 ， 这 种 技术 选择 遇 到 了 问题 。 和 急剧 增长 的 用 户 在 线 负 载 需求 远 
远 超 过 了 MySQL 集 群 的 能 力 ， 最 终 StumbleUpon 选 择 使 用 HBase 来 替换 
这 些 集群 。 当 时 ，HBase 产 品 不 能 直接 提供 必需 的 功能 。StumbleUpon 


在 HBase 上 做 了 一 些小 的 开发 改动 ， 后 来 将 这 些 开 发 工作 页 献 回 了 项 目 
社区 。 

FaceBook 使 用 HBase 的 计数 器 来 计量 人 们 喜欢 特定 网 页 的 次 数 。 
内 容 原创 人 和 网 页 主人 可 以 得 到 近乎 实时 的 、 多 少 用 户 喜 欢 他 们 网 页 
的 数据 信息 。 他 们 可 以 因此 更 敏捷 地 判断 应 该 提供 什么 内 容 。 
Facebook 为 此 创建 了 一 个 叫 Facebook Insights 的 系统 ， 该 系统 需要 一 个 
可 扩展 的 存储 系统 。 公 司 考 虑 了 很 多 种 可 能 的 选择 ， 包 括 关 系 型 数据 
库 管 理 系 统 、 内 存 数据 库 和 Cassandra 数据 库 ， 最 后 决定 使 用 HBase。 
基于 HBase，Facebook 可 以 很 方便 地 横 癌 扩展 服务 规模 ， 给 数 百 万 用 
户 提供 服务 ， 还 可 以 继续 沿用 他 们 已 有 的 运行 大 规模 HBase 集 群 的 经 
验 。 该 系统 每 天 处 理 数 百 亿 条 事件 ， 记 杂 数 百 个 监控 指标 。 

3. 遥测 技术 : Mozilia 和 Trend Micro 

软件 运行 数据 和 软件 质量 数据 ， 不 像 监控 指标 数据 那么 简单 。 例 
如 ， 软 件 有 裔 浇 报 告 是 有 用 的 软件 运行 数据 ， 经 常用 来 探究 软件 质量 和 
规划 软件 开发 路 线 图 。HBase 可 以 成 功 地 用 来 捕获 和 存储 用 户 计算 机 上 
生成 的 软件 拓 溃 报告 。 

Mozilla 基 金 会 负 贡 FireFox 网 络 浏览 俘 和 Thunderbird 电 子 邮 件 客户 
端 两 个 产品 。 这 些 工 具 安装 在 全 世界 数 百 万 台 计 算 机 上 ， 文 持 各 种 操 
作 系 统 。 当 这 些 工具 朋 尝 时 ， 会 以 Bug 报 告 的 形式 返回 一 个 软件 月 演 报 
告 给 Mozilla。Mozilla 如 何 收集 这 些 数据 ? 收集 后 又 是 怎么 使 用 的 呢 ? 
实际 情况 是 这 样 的 ， 一 个 叫做 Socorro 的 系统 收集 了 这 些 报告 ， 用 来 指 
导 人 研发 部 门 研制 更 稳定 的 产品 。Socorro 系 统 的 数据 存储 和 分 析 建 构 在 
HBase 上 {10] 。 

使 用 HBase， 基 本 分 析 可 以 用 到 比 以 前 多 得 多 的 数据 。 这 种 分 析 
用 来 指导 Mozilla 的 开发 人 员 ， 使 其 更 为 专注 ， 人 研 制 出 Bug 最 少 的 版 
本 o 


Trend Micro 为 企业 客户 提供 互联 网 安全 和 入 侵 管理 服务 。 安 全 的 
重要 环 和 是 感知 ， 日 志 收 集 和 分 析 对 于 提供 这 种 感知 能 力 是 至 关 重 要 
的 。Trend Micro 使 用 HBase 来 管理 网 络 信誉 数据 库 ， 该 数据 库 需 要 行 
级 更 新 和 支持 MapReduce 批 处 理 。 有 点 像 Mozilla 的 Socorro 系 统 ，HBase 
也 用 来 收集 和 分 析 日 志 活 动 ， 每 天 收集 数 十 亿 条 记录 。HBase 中 灵活 的 
数据 模式 允许 数据 结构 出 现 变化 ， 当 分 析 流 程 重 新 调整 时 ，Trend 
Micro 可 以 增加 新 属性 。 

4. 广告 效果 和 点 击 流 

过 去 十 来 年 ， 在 线 广告 成 为 互联 网 产品 的 一 个 主要 收入 来 源 。 移 
提供 免费 服务 给 用 户 ， 在 用 户 使 用 服务 的 时 候 投 放 广 告 给 目标 用 户 。 
这 种 精准 投放 需要 针对 用 户 交 互 数据 做 详细 的 捕获 和 分 析 ， 以 便 理解 
用 户 的 特征 。 基 于 这 种 特征 ， 选 择 并 投放 广告 。 精 细 的 用 户 交 互 数据 
会 带 来 更 好 的 模型 ， 进 而 导致 更 好 的 广告 投放 效果 ， 并 获得 更 多 的 收 
入 。 但 这 类 数据 有 两 个 特点 : 它 以 连续 流 的 形式 出 现 ， 它 很 容易 按 用 
户 划 分 。 理 想 情 况 下 ， 这 种 数据 一 旦 产生 残 能 够 马上 使 用 ， 用 户 特征 
模型 可 以 没有 延迟 地 持续 优化 ， 也 束 是 说 ， 以 在 线 方式 使 用 。 

在 线 系统 与 离线 系统 

在 线 和 离线 的 术语 多 次 出 现 。 对 于 初学 者 来 说 ， 这 些 术语 描述 了 
软件 系统 执行 的 条 件 。 在 线 系统 需要 低 延 迟 。 某 些 情况 下 ， 系 统 哪 介 
给 出 没有 答案 的 啊 应 ， 也 要 比 伦 了 很 长 时 间 给 出 正确 答案 的 啊 应 好 。 
你 可 以 把 在 线 系 统 想象 为 一 个 跳 着 脚 的 没有 耐心 的 用 户 。 离 线 系统 不 
需要 低 延 迟 ， 用 户 可 以 等 待 答案 ， 不 期 待 马 上 给 出 响应 。 当 实现 应 用 
系统 时 ， 在 线 或 者 离线 的 目标 影响 着 许多 技术 决策 。HBase 是 一 个 在 
线 系统 。 和 Hadoop MapReduce 的 紧密 结合 又 赋予 它 离 线 访问 的 能 

HBase 非 常 适合 收集 这 种 用 户 交 互 数据 ，HBase 已 经 成 功 地 应 用 在 
这 种 场合 ， 它 可 以 存储 第 一 手 点 击 流 和 用 户 交 互 数 据 ， 然 后 用 不 同 的 


处 理 方式 (MapReduce 是 其 中 一 种 ) 来 处 理 数据 (清理 、 丰 富 和 使 用 数 
据 ) 。 在 这 类 公司 ， 你 会 发 现 很 多 HBase 案 例 。 
1.2.3 内 容 服 务 

传统 数据 库 最 主要 的 使 用 场合 之 一 是 为 用 户 提 供 内 容 服 务 。 各 种 
各 样 的 数据 库 文 撑 痢 提供 各 种 内 容 服 务 的 应 用 系统 。 多 年 来 ， 这 些 应 
用 一 直 在 发 展 ， 因 此 它们 所 依赖 的 数据 库 也 在 发 展 。 用 户 希 望 使 用 和 
交互 的 内 容 种 类 越 来 越 多 。 此 外 ， 由 于 互联 网 迅猛 的 增长 以 及 终端 设 
备 更 加 迅猛 的 增长 ， 对 这 些 应 用 的 接 入 方式 提出 了 更 高 的 要 求 。 各 种 
各 样 的 终 问 设备 种 来 了 男 一 个 挑战 ， 不 同 的 设备 需要 以 不 同 的 格式 使 
用 同样 的 内 容 。 

上 面 说 的 是 用 户 消费 内 容 (user consuming content) ， 男 外 一 个 完 
全 不 同 的 使 用 场景 是 用 户 生 成 内 容 (user generate content) 。Twitter 帖 
了 于 、EFacebook 帖 和子 、Instagram 图 片 和 微 博 等 都 是 这 样 的 例子 。 

它们 的 相同 之 处 是 使 用 和 生成 了 许多 内 容 。 大 量 用 户 通 过 应 用 系 
统 来 使 用 和 生成 内 容 ， 而 这 些 应 用 系统 需要 HBase 作 为 基础 。 

内 容 管理 系统 (Content Management System ，CMS) 可 以 集中 管 
理 一 切 ， 可 以 用 来 存储 内 容 和 提供 内 容 服 务 。 但 是 当 用 户 越 来 越 多 ， 
生成 的 内 容 越 来 越 多 的 时 候 ， 束 需要 一 个 更 具 可 扩展 性 的 CMS 解决 方 
案 。 可 扩展 的 Lily CMS 出] 使 用 HBase 作 为 基础 ， 加 上 其 他 开源 框架 ， 
如 Solr， 构 成 了 一 个 完整 的 功能 组 合 。 

Salesforce 提 供 托管 CRM 产 品 ， 这 个 产品 通过 网 络 浏览 万 界面 提交 
给 用 户 使 用 ， 显 示 出 丰富 的 关系 型 数据 库 功 能 。 在 Google 发 表 NoSQL 
原型 概念 论文 之 前 很 长 一 段 时 间 ， 在 生产 环境 中 使 用 的 大 型 关键 数据 
库 节 合理 的 选择 残 是 商用 关系 型 数据 库 管 理 系统 。 多 年 来 ，Salesforce 
通过 数据 库 分 库 和 人 尖端 性 能 优化 手段 的 结合 扩展 了 系统 处 理 能 力 ， 达 
到 每 天 处 理 数 亿 事务 的 能 


当 Salesforce 把 分 布 式 数 据 库 系 统 列 入 选择 范围 后 ， 他 们 评测 了 所 
有 NoSQL 技 术 产 品 ， 最 后 决定 部 署 HBase | 世 |。 一 致 性 的 需求 是 这 个 决 
定 的 主要 原因 。BigTable 类 型 的 系统 是 唯一 的 架构 方式 ， 结 合 了 无 颖 水 
平 扩展 能 力 和 行 级 强 一 致 性 能 力 。 此 外 ，Salesforce 已 经 在 使 用 Hadoop 
完成 大 型 离线 批 处 理 任务 ， 他 们 可 以 继续 沿用 Hadoop 上 面积 累 的 宝贵 
经 验 。 

1. URL 短 链接 

最 近 一 段 时 间 URL 短 链接 非常 流行 ， 许 多 类 似 产品 破土 而 出 。 
StumbleUpon 使 用 名 字 为 supr 的 短 链接 产品 ， 这 个 产品 以 HBase 为 基 
础 。 这 个 产品 用 来 缩短 URL， 和 存储 大 量 的 短 链接 以 及 和 原始 长 链接 的 
映射 关系 ，HBase 帮 助 这 个 产品 实现 扩展 能 

2. 用 户 模型 服务 

经 HBase 处 理 过 的 内 容 往 往 并 不 直接 提交 给 用 户 使 用 ， 而 是 用 来 决 
定 应 该 提交 给 用 户 什么 内 容 。 这 种 中 间 处 理 数 据 用 来 丰富 用 户 的 交 
互 o 

还 记得 前 面 提 到 的 广告 服务 场景 里 的 用 户 特 征 吗 ? 用 户 特征 (或 
者 说 模型 ) 就 是 来 目 HBase。 这 种 模型 多 种 多 样 ， 可 以 用 于 多 种 不 同 
场景 。 例 如 ， 和 针对 特定 用 户 投放 什么 广告 的 决定 ， 用 户 在 电 商 网 站 购 
物 时 实时 报价 的 决定 ， 用 户 在 搜索 引擎 检索 时 增加 背景 信息 和 天 联 内 
容 ， 等 等 。 很 多 这 种 使 用 案例 可 能 不 便于 公开 讨论 ， 说 多 了 我 们 就 有 
磋 烦 了 。 

当 用 户 在 电 商 网 站 上 发 生 交 易 时 ，Runa_Hl 用户 模 型 服务 可 以 用 来 
实时 报价 。 这 种 模型 需要 基于 不 断 产 生 的 新 用 户 数据 持续 调 优 。 


1.2.4 信息 交换 


各 种 社交 网 络 破土 而 出 [i ， 世 界 变 得 越 来 越 小 。 社 交 网 站 的 一 个 
重要 作用 就 是 帮助 人 们 进行 互动 。 有 时 互动 在 群 组 内 发 生 (小 规模 和 


大 规模 ) ， 有 时 互动 在 两 个 个 人 之 间 发 生 。 想 想 看 ， 数 亿 人 通过 社交 
网 络 进 行 对 话 的 场面 。 单 单 和 远 处 的 人 对 话 还 不 足以 让 人 满意 ， 人 们 
还 想 看 看 和 其 他 人 对 话 的 历史 记录 。 让 社交 网 络 公司 感到 六 运 的 是 ， 
保存 这 些 历 史记 录 很 廉价 ， 大 数据 领域 的 创新 可 以 帮助 他 们 充分 利用 
廉价 的 存储 。 .由 | 

在 这 方面 ，Facebook 短 信 系统 经 常 收 公开 讨论 ， 它 也 可 能 极 大 地 
推动 了 HBase 的 发 展 。 当 你 使 用 Facebook 时 ， 某 个 时 候 你 可 能 会 收 到 或 
者 发 送 短信 给 你 的 朋友 。Facebook 的 这 个 特性 完全 依赖 于 HBase。 用 户 
读 写 的 所 有 短信 都 存储 在 HBase 里 [上 | 。Facebook 短 信 系 统 要 求 : 高 的 
写 厨 吐 量 ， 极 大 的 表 ， 数 据 中 心 内 的 强 一 致 性 。 除 了 短信 系统 之 外 ， 
其 他 应 用 系统 要 求 : 高 的 读 吞 吐 量 ， 计 数 器 吞吐 量 ， 目 动 分 库 。 工 程 
师 们 发 现 HBase 是 一 个 理想 的 解决 方案 ， 因 为 它 支 持 所 有 这 些 特 性 ， 它 
拥有 一 个 活跃 的 用 户 社 区 ，Facebook 运营 团队 在 Hadoop 部 署 上 有 丰富 
经 验 ， 等 等 。 在 “Hadoop goes realtime at Facebook [1 ”这 篇 文章 里 ， 
Facebook 工 程 师 解 释 了 这 个 决定 背后 的 逻辑 并 展示 了 他 们 使 用 Hadoop 
和 HBase 构 建 在 线 系统 的 经 验 。 

Facebook 工 程 师 在 HBaseCon 2012 大 会 上 分 享 了 一 些 有 趣 的 数据 。 
在 这 个 平台 上 每 天 交换 数 十 亿 条 短信 ， 每 天 市 来 大 约 750 亿 次 操作 。 
尖峰 时 刻 ，Facebook 的 HBase 集 群 每 秒 发 生 150 万 次 操作 。 从 数据 规模 
角度 看 ，Facebook 的 集群 每 月 增加 250TB 的 新 数据 L181 ， 这 可 能 是 已 知 
的 最 大 的 HBase 部 晋 ， 无 论 是 服务 名 的 数量 还 是 服务 圳 所 承载 的 用 户 


= 


量 。 

上 述 一 些 示 例 ， 解 释 了 HBase 如 何 解 决 一 些 有 趣 的 老 问 题 和 痢 问 
题 。 你 可 能 注意 到 一 个 共同 点 : HBase 可 以 用 来 对 相同 数据 进行 在 线 服 
务 和 离线 处 理 。 这 正 是 HBase 的 独到 之 处 。 了 解 到 可 以 如 何 使 用 HBase 
之 后 ， 现 在 来 试用 一 下 。 


1.3 你 灶 HBase 


HBase 搭建 在 Apache Hadoop 和 Apache ZooKeeper 上 面 。 就 像 
Hadoop 家 族 其 他 产品 一 样 ， 它 是 用 Java 编 写 的 。HBase 可 以 以 3 种 模式 
运行 : 单机 、 伪 分 布 式 和 全 分 布 式 。 下 面 我 们 将 使 用 的 是 单机 模式 。 
这 意味 着 在 一 个 Java 进程 里 运行 HBase 的 全 部 内 容 。 这 种 访问 模式 用 
于 人 研究 HBase 和 做 本 地 开发 。 

伪 分 布 式 模式 需要 在 一 台 机 器 上 运行 多 个 Java 进 程 。 最 后 的 全 分 布 
模式 需要 一 个 服务 器 集群 。 这 两 种 模式 需要 安装 相关 联 的 软件 包 以 及 
合理 地 配置 HBase。 这 些 内 容 将 在 第 9 章 讨论 。 

HBase 设 计 运 行 在 *nix 系 统 上 ， 代 码 和 书 中 的 命令 都 是 为 *nix 系 统 
设计 的 。 如 果 你 使 用 Windows 系 统 ， 最 好 的 选择 是 安装 一 个 Linux 虐 拟 
机 。 

关于 Java 的 解释 

HBase 基 本 上 用 Java 编 写 ， 只 有 儿 个 部 件 不 是 ， 最 优先 文 持 的 语言 
自然 是 Java。 如 果 你 不 是 Java 开 发 员 ， 在 学 习 HBase 时 需要 学 习 一 些 
Java 技 能 。 本 书 的 目标 是 指导 你 如 何 有 效 地 使 用 HBase， 很 大 篇 幅 内 容 
关于 如 何 使 用 API， 它 们 都 是 Java 的 。 所 以 ， 辛 昔 一 点 儿 吧 。 

以 单机 模式 运行 HBase， 过 程 很 简单 。 你 可 以 选择 Apache HBase 
0.92.1 版 本 ， 使 用 tar 文件 包 进 行 安 装 。 第 9 章 会 讨论 其 他 各 种 发 行 版 。 
如 果 你 选择 不 同 于 Apache HBase 0.92.1 的 其 他 版 本 ， 也 是 可 以 使 用 
的 。 本 书 的 例子 基于 HBase 0.92.1 版 本 《和 Cloudera CDH4) ， 其 他 API 
兼容 的 版 本 应 该 都 可 以 正 第 工作。 

HBase 和 需要 系统 安装 Java 运 行 环境 (JRE) 。 和 生产 系统 环境 我 们 推 
荐 Oracle 的 Java 软 件 包 。Hadoop 和 HBase 社 区 测试 了 一 些 JRE 版 本 ， 写 


作 本 书 时 HBase 0.92.1 或 CDH4 的 推荐 版 本 是 Java 1.6.0_ 31.9。Java 7 
至 今 没 有 测试 ， 因 此 并 不 推荐 。 安 装 HBase 之 前 先 在 系统 上 安装 Java 。 

到 Apache HBase 网 站 的 下 载 区 下 载 tar 文件 包 (http:// 
hbase.apache.org/) : 


mkdir hbase-install 

cd hbase-install 

wget http://apache.claz.org/hbase/hbase-0.92.1/hbase-0.92.1.tar.gz 
tar xvfz hbase-0.92.1.tar.gz 


上 述 步 骤 从 Apache 镜 像 站 点 下 载 和 解压 了 HBase 的 tar 文 件 包 。 方 便 
起 见 ， 创 建 一 个 环境 变量 指向 这 个 目录 ， 后 面 会 比较 省 事 。 把 它 写 入 
环境 变量 文件 ， 以 便 每 次 打开 Shell 时 不 用 重复 设置 。 书 中 后 面 都 会 用 
到 HBASE_HOME: 

$ _ export HBASE HOME= “pwd /hbase-0.92.1 


完成 后 ， 使 用 系统 提供 的 脚本 局 动 HBase: 


$ $HBASE HOME/bin/start-hbase.sh 
starting master, logging to .../hbase-0.92.1/bin/../logs/...-master out 


如 果 可 以 ， 把 $HBASE_HOME/bin 放 进 PATH 变量 ， 以 便 下 次 你 
可 以 直接 执行 hbase 而 不 是 $4HBASE_HOME/bin/hbase 。 
全 部 做 完 后 ， 单 机 模式 的 HBase 就 安装 成 功 了 。HBase 的 配置 信 
轧 . 主 要 在 两 个 文件 里 : hbase-env.sh 和 hbase-site.xml。 这 两 个 文件 存放 
在 /etc/hbase/conf/ 目 录 下 。 单 机 模式 的 默认 设置 里 ，HBase 写 数 据 到 目 
杂 /tmp 下 ， 但 是 该 日 好 不 是 长 期 保存 数据 的 地 方 。 你 可 以 编辑 hbase- 
site.xml 文 件 ， 添 加 下 面 配置 信息 来 将 目录 改 到 你 指定 的 地 方 : 
<property> 
<name>hbase.rootdir</name> 
<value>file:///home/user/myhbasedirectory/</value> 
</property> 
HBase 安装 成 功 后 有 一 个 简单 管理 界面 ， 运 行 在 端口 htpV/ 
localhost:60010， 如 图 1-2 所 示 。 


UU 


UU 


安装 完成 ，HBase 已 经 启动 ， 现 在 开始 使 用 HBase。 


0) HSase Master liocalhostL361 x% 


€ © © localhost60010/master-status 


Master: localhost:381SS 


AP A 


Attributes 
| Attribute Name Value Description 
HBase Version 092.1-cdh400.rUnknown HBase version and revision 
IHBase Compiled Mon Jun 4 17:27:36 PDT 2012, root When HBase version was compiled and by whom 
Hadoop Version 200-cdh400.r5d678Sf6bb1f2bc49e2287dd69ac41d7232fc9edc Hadoop version and revision 
IHadoop Compiled ‘Mon Jun 4 16:52:25 PDT 2012, enkins 由 When Hadoop version was compiled and by whom 
HBase Root Directory file/tmp/hbase-hbase/hbase Location of HBase home directory 
IHBase Cluster ID 13cceca6-107a-450f-9c94-(91c4059d289 |Unique identifier generated for each HBase cluster 
Load average 3 Average number of regions per regionserver. Naive computation. 
Zookeeper Quorum ‘localhost:2181 Addresses of all registered ZK servers. For more, see zk dymp. | 
ICoprocessors 0 Coprocessors currenmtly loaded loaded by the master 
[HMaster Start Time “Fri Jun 29 18:4231 PDT 2012 Date stamp of when this HMaster was started 
HMaster Active Time Fri Jun 29 18:42:31 PDT 2012 Date stamp of when this HMaster became active 
Tasks 
No tasks currently running on this node. 
Tables 
[Catalog Table| Description 
-了 OOT- The -ROOT- table holds references to all META,, regions. 
META, The META. table holds references to all User Table regions 


1 wable(s) in set, [Detaills] 
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图 1-2 HBase Master 状 态 页 面 。 该 页 面 可 以 看 到 HBase 的 健康 状 
态 。 也 可 以 了 解数 据 的 分 布 ， 执 行 一 些 基 本 的 管理 任务 ， 但 是 大 部 分 
管理 任务 不 是 在 这 个 页 面 完成 的 。 人 第 10 章 将 教 你 更 多 HBase 运 维 知识 


1.3.2 HBase Shell 命 令 行 交互 


你 可 以 使 用 HBase Shell， 通 过 命令 行 方 式 和 HBase 进 行 交 互 。 本 地 
安装 和 集群 安装 都 采用 同样 的 Shell 方 式 。 HBase Shell 是 一 个 封装 了 Java 
客户 端 API 的 JRuby 应 用 软件 ， 有 两 种 运行 方式 : 交互 模式 和 批 处 理 模 
式 。 交 互 模 式 用 于 对 HBase 进 行 随时 访问 交互 ， 批 处 理 模 式 主要 通过 
Shell 脚 本 进行 程序 化 交互 或 者 用 于 加 载 小 文件 。 在 本 章节 我 们 使 用 交 


互 模式 。 
JRuby 和 JVM 语 言 


不 吕 秋 Java 的 人 可 能 被 了 Ruby 的 概念 搞 迷 类 了。JRuby 是 在 Java 运 行 
时 上 面 的 Ruby 编 程 语言 的 实现 。 除 了 正常 的 Ruby 语 法 ，JRuby 文 持 访 
问 Java 对 象 和 函数 库 。JVM 上 不 仅仅 只 是 Java 和 JRuby。Jython 是 JVM 上 
Python 的 实现 ， 还 有 一 些 完全 不 同 的 语言 ， 如 Clojure 和 Scala。 所 有 这 
些 语言 都 可 以 通过 Java 客 户 端 AP[ 来 访问 HBase。 
让 我 们 开始 使 用 交互 模式 。 在 终端 中 执行 hbase shell 命令 启动 
Shell。Shell 可 以 文 持 命 令 目 动 补 全 和 命令 文档 内 联 访 问 : 
$ hbase shell 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 


Type "exit<RETURN>" to leave the HBase Shell 
Version 0.92.1-cdh4.0.0, rUnknown, Mon Jun 4 17:27:36 PDT 2012 


hbase (main) :001:0> 
走 到 这 一 步 ， 可 以 确认 Java 和 HBase 函数 库 已 经 安装 成 功 。 为 了 
最 终 验 证 ， 可 以 试 试 列 出 HBase 中 所 有 表 的 命令 。 这 个 动作 执行 了 一 个 
全 程 请 求 ， 从 客户 端 应 用 到 HBase 服 务 器 ， 然 后 返回 。 在 Shell 提 示 符 
下 ， 输 入 list 然 后 按 下 回 车 键 。 你 应 该 看 到 输出 0 个 结果 ， 以 及 接 下 来 的 
提示 符 : 


hbase (main):001:0> list 
TABLE 
0 row(s) in 0.5710 seconds 


hbase (main) :002:0> 
完成 安装 和 验证 后 ， 现 在 创建 表 并 存储 一 些 数据 。 
1.3.3 存储 数据 


HBase 使 用 表 作为 项 级 结构 来 存储 数据 。 写 数据 到 HBase， 束 古 写 
数据 到 表 。 现 在 开始 ， 创 建 一 个 有 一 个 列 族 的 表 ， 名 字 是 mytable。 是 
的 ， 列 族 ( 别 着 急 ， 后 面 会 解释 这 个 术语 ) 。 现 在 创建 表 : 


hbase (main) :002:0> Create 'mytable', 'cf' , ; 
0 row(s) in 1.0730 seconds 创建 表 mytable, 列 
hbase (main) :003:0> list 族 名 是 cf 

TABLE 列 出 新 创建 的 表 

mytable ; 

1 row(s) in 0.0080 seconds 


1， 写 数据 

表 创 建 后 ， 现 在 写 入 一 些 数据 。 我 们 往 表 里 写 入 字符 串 hello 
HBase。 按 HBase 的 说 法 ， 我 们 这 么 说 ,， “在 'mytable' 表 的 'first 行 中 
的 'cf:message' 列 对 应 的 数据 单元 中 插入 字 节 数组 hello HBase* 能 听 仅 
吗 ? 下 一 章 我 们 会 解释 所 有 这 些 术语 。 现 在 ， 执 行 写 入 命令 : 


hbase (main) :004:0> put 'mytable', 'first', 'cf:message', 'hello HBase' 
0 row(s) in 0.2070 seconds 


简单 吧 。HBase 存 储 数字 的 方式 和 存储 字符 串 一 样 。 继 续 多 增加 几 
个 但， Wk: 


hbase (main) :005:0> put 'mytable', 'second', 'cf:foo', 0x0 

0 row(s) in 0.0130 seconds 

hbase (main) :006:0> put 'mytable', 'third', 'cf:bar', 3.14159 
0 row(s) in 0.0080 second 


现在 表 里 有 3 行 和 3 个 数据 单元 。 注 意 ， 在 使 用 列 的 时 候 你 并 没有 
提前 定义 这 些 列 ， 你 也 没有 定义 往 每 个 列 里 存储 的 数据 的 类 型 。 这 就 
是 NoSQL 粉 丝 们 所 说 的 ，HBase 是 一 种 无 模式 (schema-less) 的 数据 
库 。 如 果 写 入 数据 后 不 能 读 取出 来 也 是 没有 用 的 ， 现 在 读 回 数据 看 
= 


2. 读数 据 

HBase 有 两 种 方式 读 取 数 据 : get 和 scan。 你 肯定 敏锐 地 注意 到 了 ， 
HBase 存 储 数据 的 命令 是 put。 和 put 相 对 应 ， 读 取 一 行 的 命令 是 get。 还 
记得 我 们 说 过 ，HBase 除 了 键 值 API 还 有 一 些 特别 之 处 吗 ?scan 束 是 这 
个 特别 所 在 。 第 2 章 会 介绍 scan 是 如 何 工 作 的 以 及 为 什么 它 很 重要 ， 同 
时 会 重点 关注 如 何 使 用 它 。 

现在 执行 get: 


hbase (main) :007:0> get 'mytable', 'first' 

COLUMN CELL 

cf :message timestamp=1323483954406, value=hello HBase 
1 row(s) in 0.0250 seconds 


如 上 所 示 ， 你 得 到 了 第 一 行 。Shell 输 出 了 该 行 所 有 数据 单元 ， 按 
列 组 织 ， 输 出 值 还 附带 时 间 戳 。HBase 可 以 存储 每 个 数据 单元 的 多 个 
时 间 版 本 。 存 储 的 版 本 数量 默认 值 是 3 个 ， 但 可 以 重 痢 设 置 。 读 取 的 时 
候 ， 除 非特 别 指定 ， 否 则 默认 返回 最 新 时 间 版 本 。 如 有 果 你 不 希望 存储 
多 个 时 间 版 本 ， 可 以 设置 HBase 只 存储 一 个 版 本 ， 但 是 绝 不 要 禁用 这 个 
4 

使 用 scan 命 全， 你 会 得 到 多 行 数据 。 但 是 要 小 心 ， 我 们 必须 提醒 
你 ， 除 非特 别 指定 ， 否 则 该 命令 会 返回 表 里 的 所 有 行 。 现 在 执行 scan: 


hbase (main) :008:0> Scan 'mytable' 


ROW COLUMN+CELL 
七 二 生生 七 column=cf :message, timestamp=1323483954406, value=hell 
O HBase 
second column=cf :foo, timestamp=1323483964825, value=0 
third column=cf :bar, timestamp=1323483997138, value=3.14159 


3 row(s) in 0.0240 seconds 

返回 了 所 有 数据 。 注 意 观察 HBase 返 回 行 的 顺序 ， 是 按 行 的 名 字 排 
序 的 。HBase 称 之 谓 行 键 (rowkey) 。HBase 还 有 很 多 技巧 ， 但 是 所 有 
其 他 东西 都 建立 在 你 刚才 使 用 的 基本 概念 上 。 好 好 体会 一 下 。 


1.4 小 结 


我 们 在 开始 的 介绍 性 章 市 里 介绍 了 相当 多 的 数据 管理 技术 的 历史 
资料 。 当 你 学 习 一 门 技术 时 ， 了 解 它 的 来 龙 去 脉 总 是 有 帮助 的 。 现 
在 ， 你 大 概 知 道 了 HBase 的 起 源 以 及 NoSQL 现 象 的 大 背景 。 你 也 了 解 
了 设计 HBase 是 为 了 解决 什么 样 的 问题 ， 以 及 它 已 经 解决 了 哪些 问 
题 。 不 仅 如 此 ， 你 还 安装 并 运行 了 HBase， 并 且 用 其 存储 了 一 些 可 爱 
的 “hello world” 数 据 。 


当然 ， 我 们 会 癌 你 提出 更 多 的 问题 。 强 一 致 性 为 什么 重要 ? 客户 
端 读 取 数据 时 如 何 找到 正确 的 万 点 ? scan 有 趣 在 什么 地 方 ? HBase 还 
有 什么 其 他 的 技巧 呢 ? 下 一 章 我 们 会 回答 这 些 旋 至 更 多 的 问题 。 如 有 果 
你 打算 搭建 一 个 使 用 HBase 作 为 后 端 数据 存储 的 应 用 系统 ， 第 2 章 会 告 
诉 你 怎么 开始 。 


2 间 入 | 


本 章 涵盖 的 内 容 

四 这 授 到 HBase 和 定义 表 

四 与 HBase 交互 的 基本 命令 

@@ HBase 的 物理 数据 模型 和 催 辑 数据 模型 

上 基于 复合 行 键 的 查询 

下 面 几 章 的 一 个 目标 是 教 你 如 何 使 用 HBase。 作 为 一 名 应 用 开发 人 
， 首 先 你 要 适应 HBase 的 特性 。 你 将 学 习 HBase 的 逻辑 数据 模型 
(logical data model) ， 访 问 HBase 的 各 种 方式 ， 以 及 如 何 使 用 这 些 
API 的 细节 。 另 外 一 个 目标 是 教 你 进行 HBase 模式 《schema) 设计 。 
HBase 有 着 和 以 往 关系 型 数据 库 不 同 的 物理 数据 模型 (physical data 
model) 。 我 们 将 介绍 一 些 HBase 物理 模型 的 基本 原理 ， 以 便 设 计数 据 
模型 时 你 能 够 利用 它 对 自己 的 应 用 系统 进行 优化 。 

为 了 完成 这 些 目标 ， 你 将 从 头 开始 搭建 一 个 应 用 系统 。 请 允许 我 
们 给 你 介绍 一 下 完全 建立 在 HBase 上 的 TwitBase， 它 是 社交 网 络 
Twitter 的 简化 克隆 版 。 我 们 不 会 实现 Twitter 的 所 有 功能 ， 而 且 这 也 不 
是 一 个 准备 投入 使 用 的 系统 。 我 们 只 是 把 TwitBase 看 做 Twitter 的 初级 
原型 产品 。TwitBase 和 Twitter 早期 版 本 的 主要 区 别 是 ，TwitBase 设 计 中 
考虑 了 可 扩展 性 ， 因 此 需要 依赖 数据 存储 来 实现 这 一 点 。 


pail 


本 章 从 基本 原理 开始 讲 起 。 你 会 看 到 如 何 创建 HBase 表 ， 如 何 导入 
数据 和 读 取 数据 。 我 们 将 介绍 HBase 处 理 数 据 的 基本 操作 ， 以 及 数据 模 
型 的 基本 组 件 。 同 时 ， 你 会 学 到 一 些 HBase 的 内 部 工作 机 制 。 这 些 知识 
可 以 帮助 你 在 模式 设计 时 作出 正确 决定 。 本 章 是 学 习 HBase 和 其 余 章 世 
的 起 点 。 

要 获取 本 章 及 全 书 的 代码 ， 请 访问 https:// 


github.com/hbaseinaction/twitbase ° 


2.1 从 头 开始 


TwitBase 存储 3 种 简单 的 核心 数据 元 素 ， 即 用 户 (user) 、 推 帖 
(twit) 和 关系 (relationship) 。 用 户 是 TwitBase 的 中 心 。 用 户 登 录 进 

入 应 用 系统 ， 维 护 用 户 信 息 ， 通 过 发 帖 与 其 他 用 户 互 动 。 推 帖 是 
TwitBase 中 用 户 公 开发 表 的 短文 。 推 帖 是 用 户 间 互动 的 主要 模式 。 用 户 
通过 互相 转发 产生 对 话 。 所 有 互动 的 “ 河 合 剂 ” 就 是 天 系 。 天 系 连 接 用 
户 ， 使 用 户 很 容易 读 到 其 他 用 户 的 推 帖 。 本 章 关 注 点 是 用 户 和 推 帖 ， 
下 一 章 将 讨论 关系 。 

关于 Javwa 

本 书 绝 大 部 分 代码 都 是 用 Java 编写 的 。 有 时 我 们 使 用 伪 代 码 来 帮 
助理 解 概念 ， 但 是 工作 代码 是 Java。 使 用 HBase，Java 是 现实 的 选择 。 
整个 Hadoop 系 列 ， 包 括 HBase， 都 使 用 Java。HBase 客 户 端 函 数 库 是 
Java，MapReduce 函 数 库 也 是 Java。HBase 的 部 署 需要 优化 JVM 性 能 。 
但 是 可 以 使 用 非 Java 和 非 JVM 的 语言 来 访问 HBase， 第 6 草 会 讨论 这 些 
内 容 。 


2.1.1 创建 表 


现在 开始 搭建 TwitBase， 为 存储 用 户 黄 定 一 个 基础 。HBase 是 一 个 
在 表 里 存储 数据 的 数据 库 ， 所 以 我 们 从 创建 users 表 开 始 。 首 先进 入 


HBase Shell: 


$ hbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.92.0, rl1231986, Mon Jan 16 13:16:35 UTC 2012 


hbase (main):001:0> 


Shell 打 开 一 个 到 HBase 的 连接 ， 给 出 提示 符 。 在 Shell 提 示人 符 上 ， 创 
建 你 的 第 一 张 表 : 

hbase (main) :001:0> create 'users', 'info' 

0 row(s) in 0.1200 seconds 


hbase (main) :002:0> 


可 以 想到 users' 是 表 的 名 字 ， 但 是 info' 是 什么 呢 ? 像 关 系 型 数据 库 
里 的 表 一 样 ，HBase 的 表 也 是 按照 行 (row) 和 列 (column) 来 组 织 
的 。HBase 中 的 列 和 天 系 型 数据 库 中 的 有 些 不 同 。HBase 中 的 列 组 成 列 
族 (column family) 。info 就 是 users 表 的 一 个 列 族 。HBase 中 的 表 必 
须 至 少 有 一 个 列 族 。 它 们 之 中 ， 列 族 直 接 有 影响 HBase 数 据 存储 的 物理 特 
性 。 因 此 ， 创 建 表 时 必须 至 少 指定 一 个 列 族 。 表 创建 后 列 族 还 可 以 更 
改 ， 但 是 这 么 做 很 麻烦 。 后 面 我 们 会 详细 讨论 列 族 ， 现 在 只 需要 知道 
users 表 足 够 简单 ， 只 有 一 个 列 族 ， 残 可 以 了 。 


2.1.2 人 从 了 


如 果 你 熟悉 关系 型 数据 库 ， 会 马上 注意 到 ，HBase 创建 表 时 没 提 
到 任何 列 或 者 数据 类 型 。 除 了 列 族 名 字 ，HBase 什么 也 不 需要 。 这 职 
是 HBase 经 常 被 称 作 无 模式 数据 库 的 原因 。 

你 可 以 要 求 HBase 列 出 所 有 已 创建 的 表 来 验证 users 表 已 经 创建 成 
功 : 


hbase (main) :002:0> list 
TABLE 

users 

1 row(s) in 0.0220 seconds 


hbase (main):003:0> 


list 命令 可 以 显示 存在 的 表 ，HBase 也 可 以 提供 表 的 更 多 细节 。 使 

用 describe 命 令 可 以 看 到 这 个 表 的 所 有 的 默认 参数 : 

hbase (main) :003:0> describe 'users'! 

DESCRIPTION ENABLED 
{NAME => 'users', FAMILIES => [{NAME => 'info', true 
BLOOMFILTER => 'NONE', REPLICATION SCOPE => '0 
'” COMPRESSION =>: 'NONE's VERSIONS => '3': TTEL 
=> '2147483647', BLOCKSIZE => '65536', IN MEMOR 
Y => 'false', BLOCKCACHE => 'true'}]} 

1 row(s) in 0.0330 seconds 


hbase (main) :004:0> 

Shell 显示 表 有 两 类 属性 信息 : 表 的 名 字 和 列 族 的 列表 。 每 个 列 族 
有 许多 相应 的 配置 信息 细节 ， 这 些 就 是 我 们 前 面 提 a 到 的 物理 特性 。 现 
在 对 不 管 这 些 细节 ， 我 们 随后 人 赋 究 它们 。 

HBase Shell 

虽然 HBase Shell 主 要 用 于 管理 任务 ， 但 它 拥 有 丰富 的 特性 。 它 用 
JRuby 实现 ， 可 以 使 用 整个 Java 客 户 端 API。 你 可 以 使 用 help 命 令 进 一 
步 发 掘 Shell 的 功能 。 


2.1.3 建立 连接 


尽管 Shell 很 好 用 ， 但 是 谁 会 愿意 用 Shell 命 令 实现 TwitBase 呢 ? 聪明 
的 HBase 开 发 人 员 知 道 这 一 点 ， 他 们 为 HBase 提供 了 一 个 全 面 的 Java 客 
户 端 库 。 也 有 面向 其 他 语言 的 类 似 的 API， 第 6 章 会 讨论 。 现 在 我 们 使 
用 Java。 打 开 users 表 连接 的 Java 代 码 如 下 所 示 : 


HTableInterface usersTable = new HTable('"users'").: 


类 似 于 Shell 的 做 法 ,构造 丁 数 HTable 读 取 默 认 配 置信 息 来 定位 
HBase。 然 后 定位 之 前 你 创建 的 users 表 ， 返 回 一 个 句柄 。 
你 也 可 以 传递 一 个 定制 的 配置 对 象 给 HTable 对 象 : 


Configuration myConf = HBaseConfiguzation.create() ; 
HTableInterface usersTable = new HTable (myConf, "users"), 


这 等 同 于 让 HTable 对 象 自己 创建 配置 信息 对 象 。 你 可 以 像 下 面 这 
样 设 定 参数 来 定制 配置 信息 : 


myConf .Set ("parameter name", "parameter Value") ; 


HBase 客 户 端 配置 信息 

HBase 客户 端 应 用 需要 有 一 份 HBase 配置 信息 来 访问 HBase 
ZooKeeper quorum 地 址 。 你 可 以 手工 设 定 这 个 配置 如 下 : 

MyContf.set("hbase.zookeeper.qguorum","serverip"); 

ZooKeeper 以 及 客户 端 与 HBase 集 群 之 间 的 交互 会 在 下 一 章 深 入 研 
究 分 布 式 HBase 存 储 时 讨论 到 。 现 在 你 只 需要 知道 HBase 配 置信 息 可 以 
通过 两 种 方式 获取 ， 一 种 是 Java 客 户 端 从 类 路 径 里 的 hbase-site.xml 文 件 
里 获取 配置 信息 ， 另 一 种 是 通过 在 连接 中 显 式 设 定 配置 信息 来 获取 。 
如 有 果 你 没有 指定 配置 信息 ， 束 像 示 例 代 码 里 那样 ， 客 户 端 就 会 使 用 默 
认 配 置信 息 ， 把 localhost 作 为 ZooKeeper quorum 地 址 。 单 机 模式 中 ， 指 
的 就 是 你 用 来 验证 本 书 内 容 的 机 器 ， 这 正 是 你 需要 的 配置 信息 。 

2.1.41 理 

创建 一 张 表 实例 是 个 开销 很 大 的 操作 ， 需 要 占用 一 些 网 络 资源 。 
与 直接 创建 表 句 柄 相 比 ， 使 用 连接 池 更 好 一 些 。 连 接 从 连接 池 里 分 
配 ， 然 后 再 返回 到 连接 池 。 实 践 中 ， 使 用 HTablePool 比 直接 使 用 HTable 
更 为 常见 : 


HTablePool pool = new HTablePool () ; 

HTableInterface usersTable = pool.getTable ("users"),; 
. // work with the table 

usersTable.close(); 
当 你 完成 工作 关闭 表 时 ， 连 接 资 源 会 返回 到 连接 池 里 。 
没有 数据 的 表 是 没有 用 的 ， 现 在 我 们 存储 一 些 数据 。 


2.2 数据 操作 


HBase 表 的 行 有 唯一 标识 符 ， 叫 做 行 键 (rowkey) 。 其 他 部 分 用 来 
存储 HBase 表 里 的 数据 ， 但 是 行 键 是 第 一 重要 的 。 就 像 关 系 型 数据 库 的 
主键 ，HBase 表 中 每 行 的 行 键 值 都 是 不 同 的 。 每 次 访问 表 中 的 数据 都 从 
行 键 开 始 。TwitBase 中 每 个 用 户 是 唯一 的 ， 所 以 users 表 使 用 用 户 名 字 作 
为 行 键 很 方便 ， 一 会 儿 就 这 么 用 。 

和 数据 操作 有 关 的 HBase API 称 为 命令 (command) 。 有 5 个 基 
本 命令 用 来 访问 HBase，Get ( 读 ) 、Put ( 写 ) 、Delete (删除 ) 、 
Scan (扫描 ) 和 Increment (递增 ) 。 用 来 存储 数据 的 命令 是 Put。 为 了 
往 表 里 存储 数据 ， 你 需要 创建 一 个 Put 实例 。 根 据 行 键 创建 Put 实 例 ， 
如 下 所 示 : 


Put p = new Put (Bytes.toBytes ("Mark Twalin'" ) ) ; 


为 什么 不 能 直接 存储 用 户 名 字 呢 ?HBase 中 所 有 数据 都 是 作为 原 
始 数据 (raw data) 使 用 字 节 数组 的 形式 存储 的 ， 行 键 也 是 如 此 。Java 
客户 端 画 数 库 提供 了 一 个 公用 类 Bytes， 用 来 转换 各 种 Java 数 据 类 型 ， 
所 以 你 不 必 担 心 。 注 意 ， 这 个 Put 实 例 还 没有 插入 到 表 中 。 现 在 只 是 创 
建 了 对 象 。 


2.2.1 存储 数据 


既然 我 们 准备 好 了 一 个 命令 往 HBase 里 添加 数据 ， 你 还 需要 提供 要 
存储 的 数据 。 移 存储 一 个 叫 Mark 的 用 户 的 基本 信息 ， 如 他 的 邮件 地 址 
和 密码 。 如 果 还 有 另外 一 个 用 户 也 叫 Mark Twain 会 发 生 什 么 呢 ? 它们 
的 名 字 会 神 突 ， 数 据 不 能 存储 到 TwitBase 里 。 所 以 我 们 必须 使 用 一 个 
独一无二 的 用 户 名 作为 行 键 ， 用 户 的 真实 名 字 不 做 行 键 而 是 存储 在 一 
个 列 里 面 。 把 前 面 的 Put 命 令 放 在 一 起 编写 代码 如 下 : 


Put p = new Put (Bytes .上 oBytes ("TheRealMT")); 
p.add (Bytes.toBytes ("info"), 

Bytes.toBytes ("name"), 

Bytes.toBytes ("Mark Twain")); 

.add (Bytes .toBytes ("info"), 

Bytes .toBytes ("email"), 

Bytes.toBytes ("samuel@clemens .Org" ) ) ; 


往 单 元 “info:name” 


存 人 “Mark Twain” 


如 


往 单 元 “info:email” 


存 人 “samuel@clemens.org” 
.add (Bytes .toBytes ("info"), 


Bytes.toBytes ("password"), i ，， 
Bytes .上 toBytes ("Langhorne")); | 存 人 Langhorne 


记 住 ，HBase 使 用 坐标 来 定位 表 中 的 数据 。 行 键 是 第 一 个 坐标 ， 下 
一 个 是 列 族 。 列 族 用 做 数据 坐标 时 ， 表 示 一 组 列 。 再 下 一 个 坐标 是 列 
限定 符 (column qualifier) ， 如 果 你 熟悉 HBase 术 语 ， 它 经 常 简 称 为 列 
(column) 或 标志 (qual) 。 本 例子 中 列 限 定 符 是 name、email 和 
password。 因 为 HBase 是 无 模式 的 ， 你 不 需要 事先 定义 列 限定 符 或 者 设 
定数 据 类 型 。 它 们 是 动态 的 ， 你 所 需要 做 的 只 是 在 写 入 数据 时 给 出 列 
的 名 字 。3 个 坐标 确定 了 单元 (cell) 的 位 置 。HBase 中 数据 作为 值 

(value) 存储 在 单元 里 。 表 中 确定 一 个 单元 的 坐标 是 [rowkey column 
family column qualifier]。 上 面 的 代码 在 一 行 中 存储 3 个 单元 的 3 个 值 。 
其 中 存储 Mark 名 字 的 单元 坐标 是 [TheRealMT info, name]。 

写 数 据 到 HBase 的 最 后 一 步 是 提交 命令 给 表 。 这 一 步 很 简单 : 
HTableInterface usersTable = Pool.getTable('"userSs'" ) ; 
Put P = new Put (Bytes.toBytes ("TheRealLMT'") ) ; 
Gs 党 


USerSTable.put(P) ; 
usersTable.close(); 


Ee 


往 单元 “info:password” 


2.2.2 修改 数据 


HBase 中 修改 数据 使 用 的 方式 与 存储 新 数据 一 样 : 创建 Put 对 象 ， 
在 正确 的 坐标 上 给 出 数据 ， 提 交 到 表 。 我 们 来 给 Mark 修 改 一 个 更 安全 
的 密码 。 
Put p = new Put (Bytes.toBytes ("TheRealLMT'" ) ) ; 
p.add (Bytes .toBytes ("info"), 
Bytes.toBytes ("password"), 
Bytes.toBytes ("abc123")); 
usersTable .put (p); 


2.2.3 工作 机 制 : HBase 写 路 径 

在 HBase 中 无 论 是 增加 新 行 还 是 修改 已 有 的 行 ， 其 内 部 流程 都 是 相 
同 的 。HBase 接 到 命令 后 存 下 变化 信息 ， 或 者 写 入 失败 抛 出 异常 。 默 认 
情况 下 ， 执 行 写 入 时 会 写 到 两 个 地 方 ， 预 写 式 日 志 (write-ahead log， 
也 称 HLog) 和 MemStore ( 见 图 2-1) 。HBase 的 默认 方式 是 把 写 入 动 
作 记 录 在 这 两 个 地 方 ， 以 保证 数据 持久 化 。 只 有 当 这 两 个 地 方 的 变化 
言 奶 都 写 入 并 确认 后 ， 才 认为 写 动 作 完成 。 

MemStore 是 内 存 里 的 写 入 缓 神 区 ，HBase 中 数据 在 永久 写 入 硬盘 
之 前 在 这 里 累积 。 当 MemStore 填 满 后 ， 其 中 的 数据 会 刷 写 到 硬盘 ， 生 
成 一 个 HFile。HFile 是 HBase 使 用 的 故 层 存储 格式 。HFile 对 应 于 列 族 ， 
一 个 列 族 可 以 有 多 个 HFile， 但 一 个 HFile 不 能 存储 多 个 列 族 的 数据 。 在 
集群 的 每 个 节点 上 ， 每 个 列 族 有 一 个 MemStore 。.【29 

大 型 分 布 式 系统 中 硬件 故障 很 常见 ，HBase 也 不 例外 。 设 想 一 
下 ， 如 果 MemStore 还 没有 刷 写 ， 服 务 器 丈 朋 水 了 ， 内 存 中 没有 写 入 硬 
盘 的 数据 就 会 丢失 。HBase 的 应 对 办 法 是 在 写 动 作 完 成 之 前 先 写 入 
WAL 。HBase 和 集群 中 每 台 服务 句 维 护 一 个 WAL 来 记 杂 发生 的 变化 。 
WAL 是 底层 文件 系统 上 的 一 个 文件 。 直 到 WAL 新 记录 成 功 写 入 后 ， 写 


动作 才 被 认为 成 功 完 成 。 这 可 以 保证 HBase 和 支撑 它 的 文件 系统 满足 持 
久 性 。 大 多 数 情况 下 ， HBase 使 用 Hadoop 分 布 式 文件 系统 (HDFS) 来 
作为 底层 文件 系统 。 

如 果 HBase 服 务 器 宕 机 ， 没 有 从 MemStore 里 刷 写 到 HFile 的 数据 将 
可 以 通过 回放 WAL 来 恢复 。 你 不 需要 手工 执行 。Hbase 的 内 部 机 制 中 
有 恢复 流程 部 分 来 处 理 。 每 台 HBase 服 务 器 有 一 个 WAL， 这 人 台 服务 器 上 
的 所 有 表 (和 它们 的 列 族 ) 共享 这 个 WAL 。 


写 操 作 会 写 入 预 写 式 日 志 (WAL) 

和 称 为 MemStore 的 内 存 写 缓冲 区 。 

客户 端 在 写 的 过 程 中 不 会 与 底层 的 
HFile 直 接 交 互 。 


当 MemStore 写 满 时 ， 会 刷 写 到 
硬盘 ， 生 成 一 个 新 HFile。 


图 2-1 HBase 写 路 径 。 每 次 写 入 HBase 需要 来 自 WAL 和 MemStore 
的 确认 。 这 两 个 确认 确保 每 次 写 入 HBase 在 尽 可 能 快 的 同时 保证 持久 
性 。 当 MemStore 写 满 时 刷 写 到 一 个 新 HFile 
你 可 能 想到 ， 写 入 时 跳 过 WAL 应 该 会 提升 写 性 能 。 但 我 们 不 建议 
禁用 WAL， 除 非 你 愿意 在 出 问题 时 丢失 数据 。 如 果 你 想 测 试 一下， 如 
下 代码 可 以 禁用 WAL: 
Put p = new Put() ; 
p.setWwriteTowAL (false); 


注意 : 不 写 入 WAL 会 在 RegionServer 故 障 时 增加 丢失 数据 的 风险 。 
关闭 WAL， 出 现 故 障 时 HBase 可 能 无 法 恢复 数据 ， 没 有 刷 写 到 硬盘 的 所 
有 写 入 数据 都 会 丢失 。 


2.2.4 读数 据 
从 HBase 读 取 数 据 和 写 入 数据 一 样 简单 。 创 建 一 个 Get 命 令 实例 ， 
告诉 它 你 感 兴趣 的 单元 ， 提 交 到 表 ; 
Get g = new Get (Bytes.toBytes ("TheRealLMT'" ) ) ; 
Result r = USetSTable.g9et (9) ; 


该 表 会 返回 一 个 包含 数据 的 Result 实 例 。 实 例 中 包含 行 中 所 有 列 族 
的 所 有 列 。 这 可 能 大 大 超过 你 所 需要 的 。 你 可 以 在 Get 实 例 中 放置 限制 
条 件 来 减少 返回 的 数据 量 。 为 了 返回 列 password ， 可 以 执行 命令 
addColumn()。 对 于 列 族 同 样 可 以 执行 命令 addFamily()， 下 面 的 例子 可 
以 返回 指定 列 族 的 所 有 列 : 

Get g = new Get (Bytes.toBytes ("TheRealLMT'" ) ) ; 
g.addColumn ( 

Bytes.toBytes ("info"), 

Bytes.toBytes ("password")); 

Result r = usersTable.get (9) ; 


检索 特定 值 ， 从 字 太 转换 回 字 符 串 ， 如 下 所 示 : 


Get g = new Get (Bytes.toBytes ("TheRealMT")).; 
g.addFamily (Bytes.toBytes ("info")),; 
byte[] b = .getValue 人 
Bytes.toBytes ("info"), 
Bytes.toBytes ("email")),; 
String email = Bytes.toSstring(b); // "samuel@clemens .org" 


225 工 : HBase 读 路 径 


如 果 你 想 快 速 访 问 数据 ， 通 用 的 原则 是 数据 保持 有 序 并 尽 可 能 保 
存在 内 存 里 。HBase 实 现 了 这 两 个 目标 ， 大 多 情况 下 读 操 作 可 以 做 到 之 
秒 级 。HBase 读 动作 必须 重新 衔接 持久 化 到 硬盘 上 的 HFile 和 内 存 中 
MemStore 里 的 数据 。HBase 在 读 操作 上 使 用 了 LRU (最 近 最 少 使 用 算 
法 ) 缓存 技术 。 这 种 缓存 也 叫做 BlockCache， 和 MemStore 在 一 个 JVM 
堆 里 。BlockCache 设 计 用 来 保存 从 HEFile 里 读 入 内 存 的 频 演 访问 的 数 
据 ， 避 免 便 盘 读 。 每 个 列 族 都 有 目 己 的 BlockCache 。 

掌握 BlockCache 是 优化 HBase 性 能 的 一 个 重要 部 分 。BlockCache 中 
的 Block 和 是 HBase 从 硬盘 完成 一 次 读 取 的 数据 单位 。HFile 物理 存放 形式 
是 一 个 Block 的 序列 外 加 这 些 Block 的 索引 。 这 意味 着 ， 从 HBase 里 读 
取 一 个 Block 需 要 先 在 索引 上 查找 一 次 该 Block 然 后 从 人 硬盘 读 出 。Block 
是 建立 索引 的 最 小 数据 单位 ， 也 是 从 硬盘 读 取 的 最 小 数据 单位 。Block 
大 小 按照 列 族 设 定 ， 默 认 值 是 64 KB。 根 据 使 用 场景 你 可 能 会 调 大 或 者 
调 小 该 值 。 如 果 主 要 用 于 随机 查询 ， 你 可 能 需要 细 粒 度 的 Block 索 引 ， 
小 一 点 儿 的 Block 更 好 一 些 。Block 变 小 会 导致 索引 变 大 ， 进 而 消耗 更 多 
内 存 。 如 果 你 经 常 执行 顺序 扫描 ， 一 次 读 取 多 个 Block， 大 一 点 儿 的 
Block 更 好 一 些 。Block 变 大 意味 着 索引 项 变 少 ， 索 引 变 小 ， 因 此 节省 内 


从 HBase 中 读 出 一 行 ， 首 移 会 检查 MemStore 等 待 修改 的 队列 ， 然 
后 检查 BlockCache 看 包含 该 行 的 Block 是 否 最 近 被 访问 过 ， 最 后 访问 人 硬 
盘 上 的 对 应 HFile。HBase 内 部 做 了 很 多 事情 ， 这 里 只 是 简单 概括 。 读 
路 径 如 图 2-2 所 示 。 


BlockCache 


图 2-2 HBase 读 路 径 。 把 BlockCache、MemStore 和 HFile 的 数据 凑 在 
一 起 ， 提 交 给 客户 端 
最 新 的 行 视图 
注意 ，HFile 存放 某 个 时 刻 MemStore 刷 写 时 的 快照 。 一 个 完整 行 
的 数据 可 能 存放 在 多 个 HFile 里 。 为 了 读 出 完整 行 ，HBase 可 能 需要 读 
取 包 含 该 行 信息 的 所 有 HFile 。 


从 HBase 中 删除 数据 和 存储 数据 工作 方式 类 似 。 基 于 一 个 行 键 创 
建 一 个 Delete 命 令 实 例 : 


Delete d = new Delete (Bytes .上 oOBytes ("TheRealLMT'" ) ) ; 
USezSTable.dqelete(Q) ; 

也 可 以 指定 更 多 坐标 删除 行 的 一 部 分 : 
Delete Q = new Delete (Bytes.toBytes ("TheRealMT")).; 
d.deleteColumns ( 

Bytes.toBytes ("info"), 

Bytes.toBytes ("email")),; 
usersTable.delete(d); 


deleteColumns() 方 法 从 行 中 删除 一 个 单元 。 这 和 deleteColumn() 方 
法 不 同 (注意 方法 名 字 尾 部 少 了 s) 。deleteColumn() 方 法 删除 单元 的 内 
容 。 


2.2.7 合并 : HBase 台 工 


Delete 命 令 并 不 立即 删除 内 容 。 实 际 上 ， 它 只 是 给 记录 打上 删除 的 
标记 。 就 是 说 ， 针 对 那个 内 容 的 一 条 新 “墓碑 ” (tombstone) 记录 写 入 
进来 ， 作 为 删除 的 标记 。 莫 碑记 录用 来 标志 删除 的 内 容 不 能 在 Get 和 
Scan 命令 中 返回 结果 。 因 为 HFile 文 件 是 不 能 改变 的 ， 直 到 执行 一 次 大 
合并 (major compaction) ， 这 些 莫 碑 记录 才 会 补 处 理 ， 被 删除 记录 占 
用 的 空间 才 会 释放 。 

合并 分 为 两 种 : 大 合并 (major compaction) 和 小 合并 (minorco 
mpaction) 。 两 者 将 会 重 整 存储 在 HFile 里 的 数据 。 小 合并 把 多 个 小 
HFile 合 并 生成 一 个 大 HFile， 如 图 2-3 所 示 。 因 为 读 出 一 条 完整 的 行 可 
能 引用 很 多 文件 ， 限 制 HFile 的 数量 对 于 读 性 能 很 重要 。 执 行 合 并 时 ， 
HBase 读 出 已 有 的 多 个 HFile 的 内 容 ， 把 记录 写 入 一 个 新 文件 。 然 后 ， 
把 新 文件 设置 为 激活 状态 ， 删 除 构成 这 个 新 文件 的 所 有 老 文 件 [221。 
HBase 根 据 文件 的 号 码 和 大 小 决定 合并 哪些 文件 。 小 合并 设计 出 发 点 是 
轻微 影响 HBase 的 性 能 ， 所 以 涉及 的 HFile 的 数量 有 上 限 。 这 些 都 可 以 
设置 。 


‖ HFile 
合并 的 HFile 
Il HFile [ 
| HFile i 


l HFile | 


两 个 或 更 多 个 HFile 在 合并 期 间 被 合并 成 一 个 HFile。 

图 2-3 小 合并 。 从 已 有 的 HFile 里 读 出 记录 ， 合 并 到 一 个 HFile。 
然后 新 Hfile 标记 为 权威 数据 ， 删 除 老 HFile。 大 合并 同时 处 理 一 个 列 族 
的 全 部 HFile 

大 合并 将 处 理 给 定 region 的 一 个 列 族 的 所 有 HFile。 大 合并 完成 后 ， 
这 个 列 族 的 所 有 HFile 合 并 成 一 个 文件 。 可 以 从 Shell 中 手工 触发 整个 表 
(或 者 特定 region) 的 大 合并 。 这 个 动作 相当 耗费 资源 ， 不 要 经 常 使 
用 。 男 一 方面 ， 小 合并 是 轻 量 级 的 ， 可 以 频繁 发 生 。 大 合并 是 HBase 清 
理 被 删除 记录 的 唯一 机 会 。 因 为 我 们 不 能 保证 被 删除 的 记录 和 墓碑 标 
记 记 有 录 在 一 个 HFile 里 面 。 大 合并 是 唯一 的 机 会 ，HBase 可 以 确保 同时 
访问 到 两 种 记录 。 

在 NGDATA 博 客 的 帖子 里 更 加 详细 地 介绍 了 合并 过 程 ， 以 及 增 量 
图 解 。[22 


2.2.8 有 了 时 此 


HBase 除 了 是 无 模式 数据 库 以 外 ， 还 是 有 时 间 版 本 概念 
(versioned) 的 数据 库 。 例 如 ， 你 可 以 按照 时 间 回 渊 最 初 的 密码 ; 
List<KeyValue> passwords = .getColumn ( 

Bytes.toBytes ("info"), 

Bytes.toBytes ("password")),; 

b = passwords .get (0) .getValue () ; 

String currentPasswd = Bytes.toString(b); // "abc123" 
b = passwords .get (1) .getValue (); 
String prevPasswd = Bytes.toSstring(b); // "Langhorne" 


每 次 你 在 单元 上 执行 操作 ，HBase 都 隐 式 地 存储 一 个 新 时 间 版 本 。 
单元 的 新 建 、 修 改 和 删除 都 会 同样 处 理 ， 它 们 都 会 留 下 新 时 间 版 本 。 
Get 请 求 根 据 提供 的 参数 调 出 相应 的 版 本 。 时 间 版 本 是 访问 特定 单元 时 
的 最 后 一 个 坐标 。 当 没有 设 定时 间 版 本 时 ，HBase 以 旱 秒 为 单位 使 用 当 
前 时 间 [ 宇 ]， 所 以 版 本 数字 用 长 整 型 long 表 示 。HBase 默 认 只 存储 3 个 版 
本 ， 这 可 以 基于 列 族 来 设置 。 单 元 里 数据 的 每 个 版 本 提交 一 个 
KeyValue 实 例 给 Result。 你 可 以 使 用 方法 getTimestamp() 来 获取 KeyValue 
实例 的 版 本 信息 : 
long version = 

passwords .get (0) .getTimestamp(); // 1329088818321 


如 琳 一 个 单元 的 版 本 超过 了 最 大 数量 ， 多 出 的 记 杂 在 下 一 次 大 合 
并 时 会 护 掉 * 

除了 删除 整个 单元 ， 你 也 可 以 删除 一 个 或 几 个 特定 的 版 本 。 之 前 
提 到 的 方法 deleteColumns() ( 带 s) 处 理 小 于 指定 时 间 版 本 的 所 有 
KeyValue。 不 指定 时 间 版 本 时 ， 默 认 使 用 当前 时 间 now。 方 法 
deleteColumn0 〇 只 删除 一 个 指定 版 本 。 小 心 你 调用 的 方法 ， 它 们 的 调用 
方式 相似 ， 含 义 略 有 不 同 。 


2.2.9 


本 和 讨论 了 很 多 基础 知识 ， 包 括 数据 模型 和 实现 细 站 。 现 在 暂 
停 ， 复习 一 下 到 目前 为 止 我 们 讨论 了 哪些 东西 。HBase 模 式 里 的 逻辑 实 
体 如 下 。 

四 表 (table) HBase 用 表 来 组 织 数据 。 表 名 是 字符 串 

(String) ， 由 可 以 在 文件 系统 路 径 里 使 用 的 字符 组 成 。 

目 行 (row) 一 一 在 表 里 ， 数 据 按 行 存储 。 行 由 行 键 (rowkey) 唯 
一 标识 。 行 键 没 有 数据 类 型 ， 总 是 视 为 字 节 数组 byte[]。 

四 列 族 (column family) 一 一 行 里 的 数据 按照 列 族 分 组 ， 列 族 也 影 
响 到 HBase 数 据 的 物理 存放 。 因 此 ， 它 们 必须 事前 定义 并 且 不 轻易 修 
改 。 表 中 每 行 拥有 相同 列 族 ， 尽 管 行 不 需要 在 每 个 列 族 里 存储 数据 。 
列 族 名 字 是 字符 串 (String) ， 由 可 以 在 文件 系统 路 径 里 使 用 的 字符 组 
成 o 

加 列 限 定 符 (column qualifier) 列 族 里 的 数据 通过 列 限定 符 或 
列 来 定位 。 列 限定 符 不 必 事 前 定义 。 列 限定 符 不 必 在 不 同行 之 间 你 持 
一 任 。 就 像 行 键 一 样 ， 列 限定 符 没 有 数据 类 型 ， 总 是 视 为 字 广 数组 
byte[] 。 

加 单元 (cell) 一 一 行 键 、 列 族 和 列 限 定 符 一 起 确定 一 个 单元 。 存 
储 在 单元 里 的 数据 称 为 单元 值 (value) 。 值 也 没有 数据 类 型 ， 总 是 视 
为 字 节 数 组 byte[] 。 

得 上 时间 版 本 (version) 单元 值 有 时 间 版 本 。 时 间 版 本 用 时 间 稚 
标识 ， 是 一 个 long。 没 有 指定 时 间 版 本 时 ， 当 前 时 间 礁 作为 操作 的 基 
础 。HBase 保 留 单元 值 时 间 版 本 的 数量 基于 列 族 进行 配置 。 默 认 数 量 是 
本 

上 述 6 个 概念 构成 HBase 的 基础 。 用 户 最 终 看 到 的 是 通过 API 展 现 的 
上 壕 6 个 基本 概念 的 逻辑 视图 ， 它 们 是 对 HBase 物 理 存放 在 人 硬盘 上 数据 


进行 管理 的 基石 。 在 学 习 HBase 的 过 程 中 请 牢 牢 记 住 这 6 个 概念 。 
HBase 的 每 个 数据 值 使 用 坐标 来 访问 。 一 个 值 的 完整 坐标 包括 行 
侵 、 列 族 、 列 限定 符 和 时 间 版 本 。 下 一 市 将 评 细 介绍 这 些 坐 标 。 


2.3 数据 坐标 


在 逻辑 数据 模型 里 ， 时 间 版 本 的 数字 也 是 数据 的 坐标 之 一 。 你 可 
以 想象 ， 在 关系 型 数据 库 里 存储 数据 使 用 的 是 二 维 坐 标 系统 ， 移 是 行 
后 是 列 。 照 此 类 推 ，HBase 在 表 里 存 储 数 据 使 用 的 是 四 维 坐 标 系统 。 

HBase 使 用 的 坐标 依次 是 行 键 、 列 族 、 列 限定 符 和 时 间 版 本 。users 
表 的 坐标 如 图 2-4 所 示 。 


该 表 基于 行 键 
te > 一 
按照 字典 排序 | abc123 
TheReal MT Sir Arthur Conan Doyle art@ TheQueensMen.co.uk [Len abc123 | 
~、Z 


单元 tS1=1329088321289 ts2=1329088818321 


每 个 单元 有 多 个 时 间 版 本 ， 通 常 由 
它们 被 插入 到 表 中 的 时 间 蕉 来 代表 (ts2>ts1) 


图 2-4 HBase 表 里 用 来 识别 数据 的 坐标 是 (D 行 键 (rowkey) 、 忆 列 
族 (column family) 、G@) 列 限定 符 (column qualifier) 和 (时 间 版 本 
(version) 
把 所 有 坐标 视 为 一 个 整体 ，HBase 可 以 看 做 是 一 个 键 值 
(keyvalue) 数据 库 。 抽 象 看 逻辑 数据 模型 ， 你 可 以 把 这 组 坐标 看 做 
键 ， 把 单元 数据 看 做 值 ( 见 图 2-5) 。 


[TheRealMT, info, password, 1329088818321] 一 一 abcl123 值 


[TheRealMT, info, password, 1329088321289] 一 一 Langhorne 


一 个 KeyValue 实 例 


图 2-5 HBase 可 以 认为 是 一 种 键 值 存储 ， 定 位 一 个 单元 的 4 个 坐标 

可 视 为 键 。API 中 KeyValue 类 把 一 个 单元 的 完整 坐标 和 值 本 映 打 包 在 一 
起 

当 使 用 HBase API 检索 数据 时 ， 你 不 需要 提供 全 部 坐标 。 如 果 你 在 
Get 命令 中 省 略 了 时 间 版 本 ，HBase 返 回 数据 值 多 个 时 间 版 本 的 映射 集 
合 。HBase 人 允许 你 在 一 次 操作 中 得 到 多 个 数据 ， 它 们 按照 坐标 的 降序 排 
列 。 那 么 你 可 以 把 HBase 看 做 是 这 样 一 种 键 值 数据 库 ， 它 的 数据 值 是 映 
射 集 合 或 者 映射 集合 的 集合 。 该 思想 如 图 2-6 所 示 。 


[TheRealMT, info, password, 1329088818321] 一 一 abcl123 
Q@ 首先 是 全 维度 的 坐标 。 
{ 
1329088818321 :"abc1l2"， 
(TheRealMT, info, password]—™ |]329088321289 :"LanghoMe" 


} 


@ 去 掉 时 间 版 本 后 ， 你 得 到 一 个 从 时 间 蕉 到 值 的 映 驯 、 


{ 


"email" ;:; { 
1329088321289 :"samuel@clemens .org" 
键 }, 
"name"” :; { 值 
[TheRealMT, info] ———» 1329088321289 :"Mark Twain" 
}, 
"passwdrd: { 
1329088818321 :"abcl23", 
1329088321289 :"Langhorne" 


} 


} 
@ 去 掉 列 限定 符 ， 你 得 到 一 个 从 列 限 定 符 到 上 一 层 映 射 的 映射 。 


nEO 对 
"email" : { 
1329088321289 :"samuel@clemens /org" 
}, 
"name™” : 1 
1329088321289 :"Mark Twain" 
[TheRealMT] 一 -一 oo }, 
"Password"”: { 
1329088818321 :"abcl23", 
1329088321289 :"Langhorne" 


} 
} 


@ 最 后 去 掉 列 族 ， 你 得 到 一 行 ， 一 个 映射 的 映射 。 
图 2-6 HBase 可 视 为 键 值 数据 存储 的 另 一 种 视角 。 单 元 坐标 的 维度 
越 少 ， 对 应 值 的 集合 范围 越 广 
等 本 章 后 面 我 们 介绍 了 HBase 数 据 模型 再 详细 讨论 这 个 概念 。 


2.4 小 结 


现在 知道 了 如 何 访问 HBase， 让 我 们 在 一 个 实际 例子 中 练习 已 经 学 
到 的 东西 。 首 先 为 User 实 例 定义 一 个 简单 模型 对 象 ， 如 代码 清单 2-1 所 
= 


代码 清单 2-1 User 的 数据 模型 
package HBaseIA.TwitBase.model:; 


public abstract class User { 


public String user; 
public String name; 
public String email; 
public String password; 


@Override 
public String tostring() { 

return String.format ("<User: %s, %s, $s>", user, name, email).; 
} 


} 
然后 在 一 个 类 中 封装 所 有 HBase 访 问 操作 。 先 声明 普遍 使 用 的 字 市 
数组 byte[] 常 量 ， 然 后 定义 封装 操作 命令 的 方法 ， 接 下 来 是 User 模 型 的 
公有 接口 和 私有 实现 ， 如 代码 清单 2-2 所 示 。 
代码 清单 2-2 在 UsersDAO.java 里 的 CRUD 操 作 
package HBaseIRA.TwitBase .hbase:; | 省略 导入 细 闻 
4 区 二 
public class UsersDAO { 


public static final byte[] TABLE NAME = 
Bytes.toBytes ("users"),; 

public static final byte[] INFO FAM = 
Bytes .toBytes ("info"),; 


private static final byte[] USER COL : 
Bytes.toBytes ("user"); 声明 一 次 常用 的 

private static final byte[] NAME COL 字 节 数组 常量 
Bytes.toBytes ("name'"); 

private static final byte[] EMAIL COL 
Bytes.toBytes ("email"),; 

private static final byte[] PASS COL = 
Bytes.toBytes ("password")，; 

public static final byte[] TWEETS_ COL 
Bytes .toBytes ("tweet count"); 


private HTablePool pool; 


public UsersDRAO (HTablepool pool) { 让 调用 环境 来 


this.pool = pool; 管理 连接 池 
} 


private static Get mkGet (String user) { 
Get g = new Get (Bytes.toBytes (user)); 


g.addFamily (INFO_FAM); 使 用 辅助 方法 来 封装 
return g; 常规 工作 


} 


private static Put mkPut (User u) { 
Put p = new Put (Bytes .toBytes (u.user)); 
p.add (INFO FAM, USER COL, Bytes.toBytes(u.user)); 
p.add (INFO FAM, NAME COL, Bytes.toBytes(u.name)); 
p.add (INFO FAM, EMAIL COL, Bytes.toBytes(u.email)); 
P.add (INFO FAM, PASS COL, Bytes.toBytes(u.password)); 
return p; 


} 


private static Delete mkDel (String user) { 
Delete Q = new Delete(Bytes.toBytes (user)); 
return d; 


} 


public void addUser (String user, 
string name, 
String email, 
String password) 
throws IOException { 


HTableInterface users = pool.getTable (TABLE NAME); 


Put p = mkPut (new User(user, name, email, password)); 
users.put (p); 


users.close(); 


} 


public HBaselIA.TwitBase.model .User getUser (String user) 
throws IOException { 
HTableInterface users = pool.getTable (TABLE NAME); 


Get g = mkGet (user); 

Result result = users.get (9) ; 

if (result.isEmpty()) { 
return null; 

} 


User u = new User(result),; 
users.close(); 
return u; 


} 


public void deleteUser (String user) throws IOException { 
HTableInterface users = pool.getTable (TABLE NAME); 


Delete d = mkDel (user); 
users.delete(d); 


users.close(); 


private static class User 


extends HBaseIA.TwitBase.model.User { 


private User (Result r) { 


了 一 根据 Result 构造 


this(r 


} 


private User (byte [] 


.getValue (INFO FAM, USER COL), 

9 ( 2 1model .User 实例 
r.getValue (INFO FAM, NAME COL), 
.getValue (INFO_ FAM, EMAIL COL), 
PASS_COL), 


2 
上 .getValue (INFO_ FAM, 
上 .getValue (INFO_ FAM, 
? Bytes.toBytes (0L) 
r.getValue (INFO_ FAM, TWEETS COL)).; 


TWEETS_COL) 


USeL， 
name, 

email, 
password, 
tweetCount) { 


byte [] 
byte [] 
byte [] 
byte [] 


thisl(Bytes.toSstring (user), 


this 


} 


.tweetCount = 


Bytes.tostring (name), 

Bytes.tostring (email), 

Bytes.tostring (password) ) ; 

Bytes .toLong (上 weetCount ) ; 


private User (String user, 

String name, 
String email, 
String password) { 

this.user = user; 

this.name = name; 

this.email = email; 

this.password = password; 


null 


基于 字符 串 和 字 
节 数 组 的 方便 的 


构造 函数 


最 后 一 部 分 是 main() 方 法 。 让 我 们 新 建 UsersTool 来 简化 HBase 里 
users 表 的 访问 ， 如 代码 清单 2-3 所 示 。 
代码 清单 2-3 访问 users 表 的 命令 行 接口 ，UsersTool 


package HBaselIA.TwitBase; 
jy 省 略 导 人 细节 


public class UsersTool { 


public static final String usage = 
"UsersTool] action ...\n" + 
" help - print this message and exit.\n" + 
" add user name email password" + 
" - add a new user.\n" + 
" get user - retrieve a Specific user.\n" + 
" list - list all installed users.\n"; 


public static void main(Stringl[] args) 
throws IOException { 


if (args.length == || "help".equals(args[0])) { 
System.out .println (usage); 
System.exit (0) ; 


} 

HTablePool pool = new HTablePool () ; 

UsersDAO dao = new UsersDAO (Pool) ; UsersDAO 把 连接 池 交 由 
if ("get".equals(args[0])) { 调用 环境 管理 


System.out .println("Getting user " + args [1] ) ; 
User u = dao.getUser (args [1] ) ; 
System.out .println(u); 


} 


if ("add".equals(args[0])) { 
System.out .println("Adding user...")，; 
dao.addUser (args [1], args[2], args[3], args[4]); 
User u = dao.getUser (args [1]); 
System.out .println("Successfully added user " + u); 


} 


if ("list".equals(args[0])) { 
for(User u : dao.getUsers()) { 
System.out .println (u); 


} 
} 


pool.closeTablePool]l (UsersDAO.TABLE NAME); 
不 要 忘 了 关闭 


剩 下 的 连接 


完成 所 有 代码 后 ， 你 可 以 试 一 试 。 在 本 书 源 代码 的 根 目 隶 中 编译 
jar 应 用 : 


$ mvn package 


[INFO] --------- 
[INFO] BUILD SUCCESS 

[INFO] --------- 
[INFO] Total time: 20.467s 


这 会 在 目标 目录 下 生成 文件 twitbase-1.0.0.jar。 
用 UsersTool 往 users 表 中 增加 用 户 Mark 的 信息 很 容易 : 
$ JjJava -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
add \ 
TheRealMT \ 
"Mark Twain" \ 
samuel@clemens .org \ 
abc123 
Successfully added user <User: TheRealMT> 


也 可 以 列 出 表 的 内 容 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBRaseIA.TwitBase.UsersTool \\ 
Tist 
21:49:30 INFO cli.UsersTool: Found 1 users. 
<User: TheRealMT> 
初步 掌握 了 如 何 访问 HBase 之 后 ， 让 我 们 进一步 理解 HBase 中 使 
用 的 逻辑 数据 模型 和 物理 数据 模型 。 


2.5 型 


正如 你 看 到 的 那样 ，HBase 进 行 数据 建 模 的 方式 和 你 熟悉 的 关系 型 
数据 库 有 些 不 同 。 关 系 型 数据 库 围 绕 表 、 列 和 数据 类 型 一 数据 的 形 
态 使 用 严格 的 规则。 亲 守 这 些 严 格 规 则 的 数据 称 为 结构 化 数据 。HBase 
设计 上 没有 严格 形态 的 数据 。 数 据 记 录 可 能 包含 不 一 致 的 列 、 不 确定 
大 小 等 。 这 种 数据 称 为 半 结 构 化 数据 (semistructured data) 。 

在 逻辑 模型 里 针对 结构 化 或 半 结 构 化 数据 的 导 同 影响 了 数据 系统 
物理 模型 的 设计 。 关 系 型 数据 库 假 定 表 中 的 记录 都 是 结构 化 的 和 高 度 
有 规律 的 。 因 此 ， 在 物理 实现 时 ， 利 用 这 一 点 相应 优化 硬盘 上 的 存放 
格式 和 内 存 里 的 结构 。 同 样 ，HBase 也 会 利用 所 存储 数据 是 半 结 构 化 的 
特点 。 随 着 系统 发 展 ， 物 理 模 型 上 的 不 同 也 会 影响 逻辑 模型 。 因 为 这 
种 双 回 紧密 的 联系 ， 优 化 数据 系统 必须 深入 理解 逻辑 模型 和 物理 模 
型 o 

除了 面 回 半 结 构 化 数据 的 特点 外 ，HBase 还 有 另外 一 个 重要 考虑 因 
素 一 一 可 扩展 性 。 在 半 结 构 化 逻辑 模型 里 数据 构成 是 松 籼 合 的 ， 这 一 
点 有 利于 物理 分 散 存 放 。HBase 的 物理 模型 设计 上 适合 于 物理 分 散 存 
放 ， 这 一 点 也 影响 了 逻辑 模型 。 此 外 ， 这 种 物理 模型 设计 迫使 HBase 放 
弃 了 一 些 基 系 型 数据 库 具 有 的 特性 。 特 别 是 ，HBase 不 能 实施 关系 约束 
(constraint) 并 且 不 文 持 多 行事 务 (multirow transaction) [所 。 这 种 


天 系 影响 了 下 面 儿 个 主题 。 


HBase 中 使 用 的 逻辑 数据 模型 有 许多 有 效 的 插 述 。 图 2-6 把 这 个 模 
型 解释 为 链 值 数据 库 。 我 们 考 虚 的 一 种 描述 是 有 序 映射 的 映 冉 (sorted 
map of maps) 。 你 大 概 熟 悉 编 程 语言 里 的 映射 集合 或 者 字典 结构 。 可 
以 把 HBase 看 做 这 种 结构 的 无 限 的 、 实 体 化 的 、 骨 僚 的 版 本 。 

我 们 移 来 思考 映射 的 映射 这 个 概念 。HBase 使 用 坐标 系统 来 识别 单 
元 里 的 数据 ，[ 行 刍 ， 列 族 ， 列 限定 符 ， 时 间 版 本 ]。 例 如 ， 从 users 表 里 


取出 Mark 的 记录 〈 见 图 2-7) 。 
行 键 
{ EE i 
"TheRealMT™" : 1 
列 族 一 一 "info" : 1 
"email™” :; 1 
1329088321289 : "samuel@clemens .org" 
} ， 
列 限定 符 "name" : 1 
1329088321289 : "Mark Twain" 
} ， 


"password" : 
1329088818321 \: "abcl23", 
1329088321289 "Langhorne" 
} 

} 时 间 版 本 


} 
} 


图 2-7 有 序 映射 的 映射 。HBase 逻 辑 上 把 数据 组 织 成 藤 套 的 映 喘 的 
映射 。 每 层 映 射 集合 里 ， 数 据 按照 映射 集合 的 键 字典 序 排序 。 本 例 
中 ，"email" 排 在 "name" 前 面 ， 最 新 时 间 版 本 排 在 稍 晚 时 间 版 本 前 面 。 
理解 映射 的 映射 的 概念 时 ， 把 这 些 坐 标 从 里 往外 看 。 你 可 以 想 
象 ， 开 始 以 时 间 版 本 为 键 、 数 据 为 值 建立 单元 映射 ， 往 上 一 层 以 列 限 
定 符 为 键 、 单 元 映射 为 值 建 立 列 族 映 射 ， 最 后 以 行 键 为 键 列 族 映 射 为 
值 建 立 表 映射 。 这 个 庞然大物 用 Java 描述 是 这 样 的 : Map<RowKey， 
Map<ColumnFamily Map<ColumnQualifier Map<Version, Data>>>>。 不 
算 亲 有 襄 ， 但 是 们 单 易 刷 。 
注意 我 们 说 映射 的 映射 是 有 序 的 。 上 述 例 子 只 显示 了 一 条 记录 ， 
即使 如 此 也 可 以 看 到 顺序 。 注 意 password 单 元 有 两 个 时 间 版 本 。 最 新 时 
间 版 本 排 在 稍 晚 时 间 版 本 之 前 。HBase 按 照 时 间 戳 降序 排列 各 时 间 版 


本 ， 所 以 最 新 数据 总 是 在 最 前 面 。 这 种 物理 设计 明显 导致 可 以 快速 访 
问 最 新 时 间 版 本 。 其 他 的 映射 键 按照 升序 排列 。 现 在 的 例子 看 不 到 这 
一 点 ， 让 我 们 搬入 几 行 记录 看 看 是 什么 样子 : 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \\ 
add \ 
HMS Surprise \ 
"patrick O'Brian" \ 
aubrey@sea.com \ 
abc123 
Successfully added user <User: HMS Surprise> 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
add \ 
GrandpaD \ 
"Fyodor Dostoyevsky" \ 


fyodor@brothers.net \ 
abc123 
Successfully added user <User: GrandpaD> 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
add \ 
SirDoyle \ 
"Sir Arthur Conan Doyle" \ 
art@TheQueensMen.co.uk \ 
abc123 

Successfully added user <User: SirDoyle> 


现在 再 次 列 出 Users 表 的 内 容 ， 可 以 看 到 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.UsersTool \ 
list 

21:54:27 INFO TwitBase.UsersTool: Found 4 users. 

<User: GrandpaD> 

<User: HMS Surprise> 

<User: SirDoyle> 

<User: TheRealMT> 


实践 中 ， 设 计 HBase 表 模式 时 这 种 排序 设计 是 一 个 关键 考虑 因素 。 
这 年 另外 一 个 物理 数据 模型 影响 逻辑 模型 的 地 方 。 稳 握 这 些 细节 可 以 
帮助 你 在 设计 模式 时 利用 这 个 特性 。 


束 像 天 系 型 数据 库 一 样 ，HBase 中 的 表 由 行 和 列 组 成 。HBase 中 列 
按照 列 族 分 组 。 这 种 分 组 表现 在 映射 的 映射 逻辑 模型 中 是 其 中 一 个 技 
次 。 列 族 也 表现 在 物理 模型 中 。 每 个 列 族 在 人 硬盘 上 有 目 nh 
合 。 这 种 物理 上 的 隔离 允许 在 列 族 底 层 HFile 层 面 上 分 别 进行 管理 。 

一 步 考 虑 到 合并 ， 每 个 列 族 的 HFile 都 是 独立 管理 的 。 

HBase 的 记录 按照 键 值 对 存储 在 HFile 里 。HFile 目 身 是 二 进 制 文 
件 ， 不 是 直接 可 读 的 。 存 储 在 硬盘 上 HFile 里 的 Mark 用 户 数据 如 图 2-8 所 
示 。 注 意 ， 在 HFile 里 Mark 这 一 行使 用 了 多 条 记录 。 每 个 列 限 定 符 和 时 
间 版 本 有 自己 的 记录 。 另 外 ， 文 件 里 没有 空 记录 (null) 。 如 果 没 有 数 
据 ，HBase 不 会 存储 任何 东西 。 因 此 列 族 的 存储 是 面 回 列 的 ， 惑 像 其 
他 列 式 数 据 库 一 样 。 一 行 中 一 个 列 族 的 数据 不 一 定 存 放 在 同一 个 HFile 
里 。Mark 的 info 数 据 可 能 分 散在 多 个 HFile 里 。 唯 一 的 要 求 是 ， 一 行 中 
列 族 的 数据 需要 物理 存放 在 一 起 。 


"TheRealMT", " "”， "email", 1329088321289, "samuel@clemens .org" 
"TheRealMT", " ", "name", 1329088321289, "Mark Twain" 


‘TheRealMT 7 no 7 ‘password ss 13290868816321; "abcl23"; 
“TUMRORANE "nto ‘DAMEMOLG: 1329008321289 “Langhorne 


图 2-8 对 应 users 表 info 列 族 的 HFile 数 据 。 每 条 记录 在 HFile 里 是 完整 
的 
如 果 users 表 有 了 另 一 个 列 族 ， 并 且 Mark 在 那些 列 里 有 数据 。Mark 
的 行 也 会 在 那些 HFile 里 有 数据 。 每 个 列 族 使 用 自己 的 HFile 意 味 着 ， 当 
执行 读 操 作 时 HBase 不 需要 读 出 一 行 中 所 有 的 数据 ， 只 需要 读 取 用 到 列 
族 的 数据 。 面 向 列 意 味 着 当 检索 指定 单元 时 ，HBase 不 需要 读 占 位 符 
(placeholder) 记录 。 这 两 个 物理 细节 有 利于 稀 疏 数据 集合 的 高 效 存 储 
和 快速 读 取 。 
让 我 们 增加 另外 一 个 列 族 到 users 表 ， 以 存储 TwitBase 网 站 上 的 活 
动 ， 这 会 生成 多 个 HFile。 让 HBase 管 理 整 行 的 一 整套 工具 如 图 2-9 所 
示 。HBase 称 这 种 机 制 为 region， 我 们 下 一 章 会 讨论 。 
region (users) 


列 族 (info) 列 族 (activity) 


图 2-9 users 表 的 一 个 region。 表 中 某 行 的 所 有 数据 在 一 个 region 里 管 
理 
在 图 2-9 中 可 以 看 到 ， 访 问 不 同 列 族 的 数据 涉及 完全 不 同 的 
MemStore 和 HFile。 列 族 activity 数 据 的 增长 并 不 影响 列 族 info 的 性 能 。 


2.6 表 扫 


你 可 能 发 现 ， 没 有 查询 (guery) 命令 。 到 目前 为 止 ， 你 都 找 不 到 
这 样 的 命令 。 查 找 包含 某 个 特定 值 的 记录 的 唯一 办 法 是 ， 使 用 扫描 
(Scan) 命令 读 出 表 的 某 些 部 分 ， 然 后 再 使 用 过 滤器 (filter) 来 得 到 
有 关 记 录 。 可 以 想到 ， 扫 描 返 回 的 记录 是 排 好 序 的 。HBase 设 计 上 支持 
这 种 方式 ， 因 此 速度 很 快 。 

要 扫 插 得 到 整个 表 的 内 容 ， 单 独 使 用 Scan 构 造 画 数 即 可 : 

Scan s = new Scan () ; 

但 是 ， 你 经 常 只 对 整 张 表 的 一 个 子 集 感 兴趣 。 比 如 ， 你 想得到 所 
有 以 字母 T 开 头 的 ID 的 用 户 。 给 Scan 构造 丽 数 增加 起 始 行 和 结束 行 的 信 
县 即 可 : 


Scan S = new Scan ( 
Bytes .toBytes ("T"), 
Bytes .toBytes ("U" ) ) ; 


这 个 例子 也 许 有 些 牵 强 ， 但 可 以 帮助 你 理解 。 一 个 实战 的 例子 是 
什么 样 呢 ? 假设 你 存储 了 推 帖 ， 你 一 定 想 进一步 了 解 某 个 特定 用 户 的 
最 新 推 帖 。 让 我 们 开始 实现 这 一 点 。 

2.6.1 设计 用 于 扫描 的 表 

就 像 设 计 关 系 模式 一 样 ， 为 HBase 表 设 计 模 式 (Schema) 也 需要 

考 虚 数 据 形态 和 访问 模式 。 推 帖 数 据 的 访问 模型 不 同 于 用 户 ， 因 此 我 


们 为 它们 新 建 自己 的 表 。 为 了 练 手 ， 这 里 使 用 Java API 而 不 是 Shell 来 
新 建 表 。 
可 以 使 用 HBaseAdmin 对 象 的 一 个 实例 来 执行 表 的 操作 : 


Configuration conf = HBaseConfiguration.create(),; 
HBaseAdmin admin = new HBaseAdmin (conf).，; 


创建 HBaseAdmin 实 例 显然 需要 一 个 Configuration 实 例 ， 默 认 的 
HTable 和 HTablePool 构 造 函数 帮 你 隐藏 细 和 。 这 一 步 很 简单 。 现 在 你 可 
以 定义 一 个 新 表 并 且 创 建 它 ; 


HTableDescriptor desc = new HIabJeDescLriptor (" 七 WitS") ; 
HColumnDescriptor cC = new HColumnDescLriptor ("twits").,; 
c.setMaxVersions (1); 

desc.addFamily(c),; 

admin.createTable (desc); 


HTableDescriptor 对 象 建立 新 表 的 描述 信息 ， 其 名 字 是 twits。 同 
样 ， 使 用 HColumnDescriptor 建 立 列 族 ， 名 字 也 是 twits。 和 users 表 一 
样 ， 这 里 只 需要 一 个 列 族 。 你 不 需要 推 帖 的 多 个 时 间 版 本 ， 所 以 限定 
你 留 的 版 本 数 为 一 个 。 

现在 可 以 开始 存储 推 帖 到 这 个 有 趣 的 新 twits 表 。 推 帖 包含 内 容 和 
发 布 的 日 期 和 时 间 等 。 你 需要 一 个 唯一 值 作为 行 键 ， 所 以 我 们 选择 用 
户 名 加 上 时 间 鹤 来 做 行 键 。 很 答 单 ， 我 们 存储 一 些 推 帖 ， 如 下 所 示 : 


Put put = new Put 人 


Bytes.toBytes ("TheRealMT" + 1329088818321D) ) ; 
put .add ( 


Bytes.toBytes ("twits"), 
Bytes.toBytes ("dt"), 


Bytes .toBytes (1329088818321L) ) ; 
put .adda ( 


Bytes.toBytes ("twits"), 
Bytes.toBytes ("twit"), 
Bytes.toBytes ("Hello, TwitBase!")); 


好 了 ， 基 本 如 此 。 首 先 请 注意 ， 用 户 ID 是 个 变 长 字符 串 。 当 你 使 
用 复合 行 键 时 这 会 带 来 一 些 太 烦 ， 因 为 你 需要 某 种 分 隔 符 来 切 分 出 用 
户 ID。 一 种 变通 的 办 法 是 对 行 键 的 变 长 类 型 部 分 做 散 列 (hash) 处 
理 。 选 择 一 种 散 列 算法 生成 固定 长 度 的 值 。 因 为 你 想 基于 用 户 分 组 存 
储 不 同 用 户 的 推 帖 ，MD5 算法 是 一 种 好 选择 。 这 些 组 按 序 存储 。 在 组 
内 ， 推 帖 是 基于 发 布 日 期 时 间 先 后 顺序 存储 的 。MD5 是 一 种 单 向 散 列 
算法 ， 所 以 不 要 起 了 把 未 经 编码 处 理 的 用 户 ID 男 外 存储 在 一 个 列 里 ， 
以 防 后 面 用 到 。 如 下 所 示 ， 癌 twits 表 中 写 入 数据 。 


int longLength = Long.SIZE / 8; 
bytel[] userHash = Md5Utils.md5sum("TheRealMT").; 
byte [] timestamp = Bytes.toBytes(-1 * 1329088818321L); 


byte [] rowKey = new byte[MdS5Utils.MD5 LENGTH + longLength]; 
int offset = 0; 


offset = Bytes.putBytes (rowKey, offset, userHash, 0 
Bytes.putBytes (rowKey, offset, timestamp, 0, 
Put put = new Put (rowKey); 
put .add ( 

Bytes.toBytes ("twits"), 

Bytes.toBytes ("user"), 

Bytes .toBytes ("TheRealMT").; 
put .add ( 

Bytes.toBytes ("twits"), 

Bytes.toBytes ("twit"), 

Bytes.toBytes ("Hello, TwitBase!)); 


， userHash.length).; 
timestamp.length); 


一 般 来 说 ， 你 会 移 用 到 最 新 推 帖 。HBase 在 物理 数据 模型 里 按照 行 
键 顺 序 存 储 行 。 你 可 以 利用 这 个 特性 。 在 行 键 里 包括 推 帖 的 时 间 戳 ， 
并 且 乘 以 -1， 就 可 以 先 得 到 最 新 的 推 帖 。 

在 HBase 模 式 中 行 键 设计 至 大 重要 

这 一 点 如 何 强调 都 不 为 过 : HBase 的 行 键 在 设计 表 时 是 第 一 重要 的 
考量 因素 。 我 们 会 在 第 4 章 进 一 步 讨论 。 我 们 现在 提 到 它 是 为 了 让 你 在 
学 习 例 子 时 脑子 里 有 个 概念 。 当 你 看 到 HBase 模 式 时 第 一 个 应 该 问 目 己 
的 问题 是 :“ 行 键 是 什么 ?” 下 一 个 问题 是 :“ 我 可 以 怎样 让 行 健 更 有 效 
率 ? ” 


使 用 用 户 ID 作为 twits 表 行 键 的 第 一 部 分 证 明 是 好 办 法 。 它 可 以 基 
于 用 户 以 自然 行 的 顺序 有 效 地 生成 数据 桶 (bucket) 。 来 自 同 一 用 户 的 
数据 以 连续 行 的 形式 存储 在 一 起 。 现 在 Scan 命令 如 何 使 用 呢 ? 或 多 或 
少 和 之 前 介绍 的 类 似 ， 只 是 计算 停止 键 时 复杂 一 点 : 
byte [] userHash = Md5Utils.md5sum(user); 
byte [] startRow = Bytes.padTail (userHash, longLength); // 212d...866f00... 


byte [] stopRow = Bytes.padTail (userHash, longLength); 
stopRow [Md5Utils.MDS5 LENGTH-1]++; Xi 2120..32867000k 


Scan s = new Scan(startRow, stopRow); 
ResultsScanner rs = twits.getScanner(s); 


本 例 中 ， 你 可 以 通过 对 行 键 中 用 户 ID 部 分 的 最 后 字符 加 1 来 生成 停 
止 键 。 扫 描 需 返回 包括 起 始 键 但 是 不 包括 停止 键 的 记录 ， 因 此 你 只 得 
到 了 匹配 用 户 的 推 帖 。 

再 通过 一 个 人 简单 的 循环 从 ResultScanner 中 读 出 推 帖 : 


for(Result r : rs) { 
// extract the username 
byte [] b = r.getValuel( 
Bytes .toBytes ("LwitS" ) ， 
Bytes .toBytes ("uSez'") ) ; 
String user = Bytes .toString(b) ; 
// extract the twit 
b = .getValue 人 
Bytes .toBytes ("twits"), 
Bytes.toBytes ("twit")).; 
String message = Bytes.toSstring(b); 
// extract the timestamp 
b = Atays .copyoOotRange ( 
r.getRow(), 
Md5Utils.MDS LENGTH, 
Md5Utils.MD5 LENGTH + longLength).; 
DateTime dt = new DateTime(-1 * Bytes.toLong (b) ) ; 


循环 中 唯一 需要 处 理 的 是 分 离 出 时 间 鹤 ， 并 且 把 字 广 数组 byte[] 转 
换 成 合适 的 数据 类 型 。 你 会 得 到 如 下 数据 : 


<Twit: TheRealMT 2012-02-20T00:13:27.931-08:00 Hello, TwitBase!> 
2.0.3 2 


在 HBase 的 设置 里 扫描 每 次 RPC 调 用 得 到 一 批 行 数 据 。 这 可 以 在 扫 
描 对 象 上 使 用 setCaching(int) 在 每 个 扫描 器 (scanner) 层次 上 设置 ， 也 
可 以 在 hbasesite.xml 配置 文件 里 使 用 HBase.client.scanner.caching 属 性 来 
设置 。 如 果 绥 存 值 设置 为 n， 每 次 RPC 调 用 扫 摘 器 返回 n 行 ， 然 后 这 些 
数据 缓存 在 客户 端 。 这 个 设置 的 默认 值 是 1， 这 意味 着 客户 端 对 HBase 
的 每 次 RPC 调 用 在 扫描 整 张 表 后 仅仅 返回 一 行 。 这 个 数字 很 保守 ， 你 
可 以 调整 它 以 获得 更 好 的 性 能 。 但 是 该 值 设 置 过 高 意味 着 客户 端 和 
HBase 的 交互 会 出 现 较 长 暂停 ， 这 会 导致 HBase 端 的 超时 。 


ResultScanner 接 口 也 有 一 个 next(inb 调 用 ， 你 可 以 用 来 要 求 返回 扫 
描 的 下 面 nD 行 。 这 是 在 API 层 面 提 供 的 便利 ， 与 为 了 获得 那 n 行 数据 客户 
端 对 HBase 的 RPC 调 用 次 数 无 关 。 

在 内 部 机 制 中 ，ResultScanner 使 用 了 多 次 RPC 调 用 来 满足 这 个 请 
求 ， 每 次 RPC 调 用 返回 的 行 数 只 取决 于 你 为 扫描 噩 设置 的 缓存 值 。 

2.0.4 过 


并 不 总 能 设计 一 个 行 键 来 完美 地 匹配 你 的 访问 模式 。 有 时 你 的 使 
用 场景 需要 扫描 HBase 的 一 组 数据 但 是 只 返回 它 的 子 集 给 客户 端 。 这 
时 需要 使 用 过 滤 絮 (filter) 。 为 你 的 Scan 对 和 象 增加 过 滤器 ， 如 下 所 
不 : 


Filter f = 
Scan s = new Scan(); 
s.setrilter(f); 


过 滤器 是 在 HBase 服 务 右 端 上 而 不 是 在 客户 端 执行 判断 动作 。 当 你 
在 Scan 里 设 定 Filter 时 ，HBase 使 用 它 来 决定 一 个 记录 是 否 返回 。 这 样 避 
免 了 许多 不 必要 的 数据 传输 。 这 个 特性 在 服务 右上 执行 过 沽 动作 而 不 
是 把 负担 放 在 客户 端 。 

使 用 过 滤器 需要 实现 org.apache.hadoop.hbase.filter.filter 接口 。 
HBase 提 供 了 许多 种 过 沽 器 ， 但 实现 你 目 己 的 过 滤 需 也 很 容易 。 

为 了 过 滤 所 有 提 到 TwitBase 的 推 帖 ， 你 可 以 结合 
RegexStringComparator 使 用 ValueFilter: 


Scan s = new Scan() ; 
s.addColumn (Bytes.toBytes ("twits"), Bytes.toByes ("twit")),; 
Filter f = new ValueFilter!( 

CompareOp .EQUAL, 

new RegexStringComparator(".*TwitBase.*")).; 
s.setrFilter(f); 


HBase 也 提供 了 一 个 过 滤器 构造 类 。ParseFilter 对 象 实现 了 一 种 查 
询 语言 ， 可 以 用 来 构造 Filter 实例 。 可 以 用 一 个 表达 式 构造 同样 的 
TwitBase 过 滤 妖 : 
Scan s = new Scan(); 
s.addColumn (TWITS FAM, TWIT COL); 
String expression = "ValueFilter(=; 'regexSstring:.*TwitBases*')"; 
ParseFilter p = new ParseFilter(); 


Filter f = p.parseSimpleFilterExpression(Bytes.toBytes (expression)); 
s.setFilter(f); 


这 两 个 例子 中 ， 数 据 在 到 达 客 户 端 之 前 在 region 中 编译 和 使 用 了 正 
则 表达 式 。 

上 面 是 一 个 在 应 用 中 使 用 过 滤 颖 的 人 简单 例子 。HBase 中 过 滤 絮 可 以 
应 用 到 行 键 、 列 限定 符 或 者 数据 值 。 你 也 可 以 使 用 FilterList 和 
WhileMatchFilter 对 象 组 合 多 个 过 滤 硕 。 过 着 名 允许 对 数据 分 页 处 理 ， 
限制 扫描 器 返回 的 行 数 。 我 们 将 在 第 4 章 深 入 讨论 组 合 型 过 滤器 

(bundled filter) 。 


2.7 原子 


HBase 操作 库 里 的 最 后 一 个 命令 是 列 值 递增 (Increment Column 
Value) 。 它 有 两 种 使 用 方式 ， 像 其 他 命令 那样 使 用 Increment 命 令 对 
象 ， 或 者 作为 HTableInterface 的 一 个 方法 来 使 用 。 我 们 使 用 
HTableInterface 的 方式 ， 因 为 语义 更 直观 。 我 们 使 用 它 来 保存 每 个 用 户 
发 布 推 帖 的 总 数 ， 如 下 所 示 : 

long ret = USerSTable.incrementColumnValue ( 
Bytes.toBytes ("TheRealMT"), 
Bytes.toBytes ("info"), 


Bytes.toBytes ("tweet count"), 
LG} 


该 命令 不 用 先 读 出 HBase 单 元 就 可 以 改变 存储 其 中 的 值 。 数 据 操作 
发 生 在 HBase 服 务 器 上 ， 而 不 是 在 你 的 客户 端 ， 所 以 速度 快 。 当 其 他 客 
户 问 也 在 访问 同一 个 单元 时 ， 这 样 避 人 免 了 出 现 闲 乱 状 态 。 你 可 以 把 ICV 

(IncrementColumnValue) 等 同 于 Java 的 AtomicLong.addAndGet() 方 
法 。 递 增值 可 以 是 任何 JavaLong 类 型 值 ， 无 论 正 负 。 我 们 将 在 下 一 贡 
深入 讨论 原子 性 操作 。 

也 请 注意 这 个 数据 不 是 存储 在 twits 表 而 是 users 表 中 。 存 在 users 表 
的 原因 是 不 希望 这 个 信息 成 为 扫描 的 一 部 分 。 存 在 twits 表 里 会 让 常用 
的 访问 模式 很 不 方便 。 

就 像 Java 的 原子 类 族 ，HTableInterface 也 提供 checkAndPutO 和 
check AndDelete() 方 法 。 它 们 可 以 在 维持 原子 语义 的 同时 提供 更 精细 地 
控制 。 你 可 以 用 checkAndPut0 来 实现 incrementColumnValue() 方 法 : 


Get g = new Get (Bytes.toBytes ("TheRealMT")).,， 
Result r = usersTable .get (g); 
long curVal = Bytes.toLongl( 
r.getColumnLatest( 
Bytes.toBytes ("info"), 
Bytes.toBytes("tweet count")) .getValue()); 
Lig TneVal = CUrVal 4 3 
Put p = new Put (Bytes.toBytes ("TheRealMT")); 
p.add( 
Bytes .toBytes ("info"), 
Bytes.toBytes ("tweet count"), 
Bytes.toBytes (incVal)); 
usersTable.checkAndpPut ( 
Bytes.toBytes ("TheRealMT"), 
Bytes.toBytes ("info"), 
Bytes.toBytes ("tweet count"), 
Bytes .toBytes (curVal), 
P) ; 


该 实现 有 点 长 ， 但 可 以 试 试 。 使 用 checkAndDelete0 的 方式 与 此 类 
似 。 

按照 和 前 面相 同 的 方式 ， 你 可 以 轻松 地 新 建 TwitsTool 表 。 模 型 、 
DAO 和 命令 行 实 现 和 前 面 users 表 的 情况 类 似 。 本 书 附带 的 源 代码 提供 
了 一 个 实现 。 


2.8 ACID 语义 


如 有 果 使 用 过 数据 库 系统 ， 你 会 听 说 过 各 种 数据 库 系统 提供 的 ACID 
语义 。 ACID 是 当 你 搭建 使 用 数据 库 系 统 做 存储 的 应 用 系统 时 需要 掌握 
的 一 组 要 素 。 当 应 用 系统 访问 承载 它 的 数据 库 时 ， 遵 循 这 些 要 素 可 以 


使 应 用 系统 的 行为 更 加 合理 。 为 简单 起 见 ， 让 我 们 再 次 定义 ACID。 记 
住 ，ACID 不 同 于 之 前 我 们 简要 介绍 过 的 CAP 。 

四 Atomicity (原子 性 ) 原子 性 是 指 原子 不 可 分 的 操作 属性 ， 
换 句 话说 ， 要 么 全 部 完成 ， 要 么 全 部 不 完成 。 如 果 操 作成 功 ， 整 个 操 
作成 功 。 如 果 操 作 失 败 ， 整 个 操作 失败 ， 系 统 会 回 滚 到 操作 开始 前 的 
状态 ， 就 像 这 个 操作 从 来 没有 执行 过 一 样 。 


加 Consistency (一 致 性 ) 一 一 一 致 性 是 指 把 系统 从 一 个 有 效 状 态 带 
入 另 一 个 有 效 状 态 的 操作 属性 。 如 采 操 作 使 系统 出 现 不 一 致 ， 操 作 不 
会 被 执行 或 痢 被 回 退 。 


四 Isolation (隔离 性 ) 隅 离 性 意味 着 两 个 操作 的 执行 是 互 不 干 
扰 的 。 例 如 ， 同 时 在 一 个 对 象 上 不 会 出 现 两 个 写 动作 。 写 动作 会 一 个 
搂 一 个 发 生 ， 而 不 会 同时 发 生 。 

@ Durability (持久 性 ) 一 一 持久 性 是 我 们 早 前 谈论 过 的 。 它 意味 
看 数据 一 旦 写 入 ， 确 你 可 以 读 回 并 且 不 会 在 系统 正 稼 操作 一 段 时 间 后 
下 六: 


2.9 小 结 


为 了 避免 漏 掉 学 习 内 容 ， 这 里 快速 概括 一 下 本 章 讲 过 的 内 容 。 

HBase 是 一 种 专门 为 半 结 构 化 数据 (semistructured) 和 水 平 可 扩展 
性 (horizontal scalability) 设计 的 数据 库 。 它 把 数据 存储 在 表 里 。 在 表 
里 ， 数 据 按 照 一 个 四 维 坐 标 系统 来 组 织 : 行 键 、 列 族 、 列 限定 符 和 时 
间 版 本 。HBase 是 无 模式 数据 库 ， 只 需要 提前 定义 列 族 。 它 也 是 无 类 型 
数据 库 ， 把 所 有 数据 不 加 解释 地 按照 字 世 数组 存储 。 有 5 个 基本 命令 用 
来 访问 HBase 中 的 数据 ， 即 Get、Put、Delete、Scan 和 Increment。 基 于 
非 行 键 值得 询 HBase 的 唯一 办 法 是 通过 融 过 滤器 的 扫 朱 。 

HBase 不 是 一 个 ACID 兼容 数据 库 [| 


HBase 不 是 一 个 ACID 兼容 数据 库 。 但 是 HBase 提 供 一 些 保证 ， 当 你 
的 应 用 系统 访问 HBase 系 统 时 ， 你 可 以 用 其 来 使 你 的 应 用 系统 的 行为 更 
加 合理 。 这 些 保 证 具体 如 下 。 

1. 操作 是 低级 原子 不 可 分 的 。 换 句 话说 ， 给 定 行 上 的 PutO 要 么 整 
体 成 功 要 么 整体 失败 回 到 操作 开始 前 的 状态 ， 永 远 不 会 部 分 行 写 入 而 
另 一 部 分 没有 。 这 个 要 素 和 操作 执行 的 列 族 的 数量 无 关 。 

2. 行 间 操 作 不 是 原子 性 的 。 不 能 保证 所 有 操作 整体 成 功 或 者 失 
败 。 所 有 单行 操作 如 上 一 点 所 述 是 原子 性 的 。 

3. checkAnd* 和 increment* 操 作 是 原子 不 可 分 的 。 

4. 对 于 给 定 行 的 多 个 写 操作 ， 总 是 以 每 个 写 操 作为 整体 彼此 独立 
的 。 这 是 第 一 点 的 延伸 。 

5. 对 于 给 定 行 的 任何 GetO 操 作 ， 返 回 系统 当时 所 保存 的 完整 行 。 

6. 全 表 扫 摘 不 是 对 某 个 时 间 点 表 的 快照 鸭 扫描 。 如 果 扫 摘 已 经 开 
始 ， 但 是 在 行 R 被 扫描 器 对 象 读 出 之 前 ， 行 R 被 改变 了 ， 那 么 扫描 器 读 
出 行 R 更 新 后 的 版 本 。 但 是 扫 摘 器 读 出 的 数据 是 一 致 的 ， 得 到 行 R 更 新 
后 的 完整 行 。 

当 你 搭建 使 用 HBase 的 应 用 系统 时 ， 这 些 背 景 信息 是 你 需要 注意 的 

数据 模型 从 逻辑 上 可 以 分 类 为 键 值 存储 或 者 是 有 序 映射 的 映射 。 
物理 数据 模型 是 基于 列 族 的 列 式 数据 库 ， 单 个 记录 以 键 值 形 式 存 储 。 
HBase 把 数据 记录 保存 在 HFile 里 ， 这 是 一 种 不 能 更 改 的 文件 格式 。 
为 记录 一 旦 写 入 就 不 能 修改 ， 新 值 将 保存 在 新 HFile 里 。 在 读 取 数据 和 
数据 合并 时 ， 数 据 视图 需要 在 内 存 中 重新 衔接 。 

HBase Java API 通过 HTableInterface 来 使 用 表 。 表 连接 可 以 直接 通 
过 构造 HTable 实 例 来 建立 。 使 用 HTable 实 例 系统 开销 大 ， 优 选 方式 是 使 
用 HTablePool， 因 为 它 可 以 重复 使 用 连接 。 表 通过 HbaseAdmin、 
HTableDescriptor 和 HColumnDescriptor 类 的 实例 来 新 建 和 操作 。5 个 命 


令 通 过 相应 的 命令 对 象 来 使 用 : Get、Put、Delete、Scan 和 Increment 。 
命令 送 到 HtableInterface 实 例 来 执行 。 递 增 Increment 有 另外 一 种 用 法 ， 
使 用 HTableInterface.increment ColumnValue() 方 法 。 执 行 Get、Scan 和 
Increment 命令 的 结果 返回 到 Result 和 ResultScanner 对 和 象 的 实例 。 一 个 
KeyValue 实 例 代表 一 条 返回 记录 。 所 有 这 些 操作 也 可 以 通过 HBase 
Shell 以 命令 行 方 式 执行 。 

预期 的 数据 访问 模式 对 HBase 的 模式 设计 有 很 大 的 影响 。 理 想 情 况 
下 ，HBase 中 的 表 根 据 预 期 的 模式 来 组 织 。 行 键 是 HBase 中 唯一 的 全 局 
索引 坐标 ， 因 此 查询 经 常 通过 行 链 扫 摘 实现 。 复 合 行 链 是 文 持 这 种 扫 
描 的 第 见 做 法 。 行 键 值 经 名 硕 望 是 均衡 分 布 的 。 诸 如 MD5 或 SHA1 等 散 
列 算法 通常 用 来 实现 这 种 均衡 分 布 。 


第 3 章 分 布 式 的 HBase、 HDES 和 


MapReduce 


本 章 涵盖 的 内 容 

卓 作为 分 布 式 存储 系统 的 HBase 

加 何 时 使 用 MapReduce 而 不 是 键 值 API 

四 MapReduce 概念 和 工作 流程 

加 如 何 为 HBase 编 写 MapReduce 应 用 

加 如 何在 HBase 上 使 用 MapReduce 完成 map 侧 联结 

四 在 HBase 上 使 用 MapReduce 的 示例 

你 已 经 知道 HBase 建 立 在 Apache Hadoop 上 面 ， 但 你 可 能 还 不 清楚 
为 什么 如 此 设计 。 对 于 应 用 开发 人 员 来 说 ， 最 重要 的 是 这 可 以 市 来 什 
么 好 处 呢 ? HBase 在 两 个 方面 依赖 Hadoop。Hadoop MapReduce 提供 了 
分 布 式 计算 框架 ， 支 持 高 否 吐 量 数据 访问 。Hadoop 分 布 式 文件 系统 


(HDFS) 作为 HBase 的 存储 层 ， 支 持 可 用 性 (availability) 和 可 靠 性 
(reliability) 。 在 本 章 你 会 看 到 TwitBase 如 何 利 用 这 种 大 规模 计算 的 数 
据 访 问 能 力 ， 以 及 HBase 如 何 使 用 HDFS 来 保证 可 用 性 和 可 徘 性 。 

本 章 开 始 ， 我 们 将 告诉 你 为 什么 MapReduce 是 在 HBase 中 处 理 数 据 
的 另 一 种 有 价值 的 访问 模式 。 然 后 我 们 将 概述 Hadoop MapReduce。 带 
痢 这 些 知 识 ， 我 们 将 学 习作 为 一 种 分 布 式 系统 的 HBase。 我 们 将 回 你 展 
示 如 何在 HBase 中 使 用 MapReduce 作 业 ， 给 你 传授 在 HBase 中 使 用 
MapReduce 的 一 些 有 用 的 技巧 。 最 后 我 们 将 向 你 展示 HBase 如 何 为 你 的 
数据 提供 可 用 性 、 可 靠 性 和 持久 化 。 如 有 果 你 是 一 个 老练 的 *Hadooper”， 
已 然 了 解 MapReduce 和 HDFS， 你 可 以 直接 跳 到 3.3 方 ， 深 入 学 习 HBase 
pa Sn 

本 章 使 用 的 代码 将 继续 上 一 章 开 始 的 TwitBase 项 目 ， 可 以 在 
https:Wgithub.comy/hbaseinaction/twitbase 下 载 。 


3.1 一 个 MapReduce 的 例子 


到 目前 为 止 ， 你 看 到 的 关于 HBase 的 一 切 ， 关 注 点 都 是 在 线 操作 
(online) 。 你 期 望 每 个 Get 和 Put 能 在 毫秒 级 时 间 返 回 结果 。 你 谨慎 地 
处 理 Scan 命 令 ， 在 网 上 传输 尽 可 能 少 的 数据 以 便 它 们 可 以 尽快 完成 。 
你 也 在 模式 设计 中 强调 这 一 点 。twits 表 的 行 键 做 了 特殊 设计 ， 用 来 最 
大 化 物理 数据 本 地 存放 和 最 小 化 扫 摘 记录 人 花费 的 时 间 。 

但 并 不 是 所 有 的 计算 都 要 求 在 线 执行 。 对 于 一 些 应 用 ， 离 线 操作 
(offline) 更 好 些 。 你 可 能 不 关心 网 站 流量 月 报表 需要 4 个 小 时 还 是 5 个 
小 时 来 生成 ， 只 要 在 业务 负责 人 需要 它们 之 前 完成 台 行 。 离 线 操作 也 
有 性 能 上 的 考虑 。 这 些 考虑 往往 集中 在 整个 聚合 计算 任务 上 ， 而 不 是 
集中 在 单个 请 求 的 延迟 上 。MapReduce 就 是 这 样 一 种 计算 范 型 ， 它 用 一 
种 高 效 的 方式 离线 (或 批 ) 处 理 大 量 数据 。 


3.1.1 延迟 与 吞吐 量 

离线 和 在 线 这 对 二 元 性 概念 已 经 出 现 多 次 了 。 这 对 二 元 性 概念 在 
传统 关系 型 数据 库 领 域 里 也 存在 ， 如 联机 事务 处 理 (OLTP) 和 联机 分 
析 处 理 (OLAP) 。 不 同 的 数据 库 应 用 系统 针对 不 同 的 访问 模式 做 优 
化 。 为 了 用 最 小 成 本 得 到 最 佳 性 能 ， 你 必须 针对 任务 特点 使 用 正确 的 
工具 。 快 速 处 理 实时 查询 的 系统 很 可 能 在 对 大 量 数 据 做 批 处 理 时 并 不 
是 优化 的 选择 。 

想 想 最 近 一 次 你 去 买 日 用 杂货 。 你 会 到 商店 买 一 样 东 西 融 回 储藏 
室 ， 然 后 再 去 商店 买 下 一 样 吗 ? 好 吧 ， 有 时 你 会 这 么 做 ， 但 不 是 理想 
的 做 法 ， 对 吧 ? 更 有 可 能 的 是 ， 你 会 准备 一 个 购物 清单 ， 来 到 商店 ， 
淡 满 小 推 车 ， 把 所 有 东西 买 回 家 。 

这 种 做 法 使 得 购买 过 程 变 长 了 ， 但 是 花费 在 从 家 到 商店 路 途 往 返 
的 时 间 比 一 次 买 一 样 短 了 。 这 个 例 季 中 ， 路 途 时 间 比 选择 、 购 买 和 拆 
包 时 间 更 为 重要 。 当 一 次 购买 多 样 东西 时 ， 每 样 东西 所 花费 的 平均 时 
间 要 少 得 多 。 准 备 购 物 清单 意味 着 高 知 吐 量 。 在 商店 里 ， 你 需要 一 个 
更 大 的 手推车 来 装载 那个 长 长 的 购物 清单 里 的 东西 ， 一 个 小 手提 篮子 
不 够 用 的 。 为 一 种 情况 准备 的 工具 对 于 另 一 种 情况 往往 是 不 适用 的 。 

我 们 用 同样 的 思路 来 考虑 数据 访问 。 在 线 系统 看 重 的 是 得 到 一 点 
儿 数 据 所 需要 的 时 间 一 一 这 是 到 商店 里 买 一 样 东西 的 整个 过 程 。 这 种 
情况 下 ， 测 量 响应 时 间 延 迟 ， 统 计 前 95% 的 表现 情况 一 般 是 衡量 在 线性 
能 的 最 重要 指标 。 离 线 系统 针对 聚合 访问 模式 做 了 优化 ， 为 了 最 大 化 
否 吐 量 希 望 一 次 处 理 尽 可 能 多 的 数据 。 这 类 系统 通常 用 每 秒 处 理 单位 
数 来 衡量 性 能 。 这 里 的 单位 可 能 是 请 求 数 、 记 录 数 或 者 MB 数据 。 不 管 
什么 单位 ， 这 里 看 重 的 是 整个 任务 的 总 处 理 时 间 ， 而 不 是 一 个 单位 的 
处 理 时 间 。 


3.1.2 串 行 吐 


上 一 草 我 们 用 Scan 命令 来 查找 TwitBase 用 户 的 最 新 推 帖 。 新 建 了 起 
台 行 键 和 停止 行 键 ， 然 后 执行 扫描 。 碍 找 一 个 用 户 这 是 可 行 的 ， 但 是 
如 宁 想 对 所 有 用 户 做 个 统计 会 怎么 样 呢 ? 假设 你 有 一 定 规模 的 用 户 基 
数 ， 你 可 能 想 知 道 多 少 比例 的 推 帖 和 莎 士 比 炎 有 关 ， 也 可 能 你 想 知 道 
有 多 少 用 户 在 推 帖 中 提 到 了 哈姆雷特 。 
怎样 从 系统 中 所 有 用 户 的 所 有 推 帖 里 产生 这 些 数 据 呢 ? 使 用 Scan 
对 象 ， 会 做 到 这 一 点 : 
HTableInterface twits = pool.getTable (TABLE NAME) ; 
Scan s = new Scan() :; 
ResultScanner results = twits.getScanner(s); 
for (Result r : results) { 
... // process twits 
} 


这 段 代码 要 求 得 到 表 中 的 所 有 数据 ， 返 回 给 客户 并 做 送 代 码 找 。 
看 到 这 段 代码 你 有 什么 感觉 ? 我 们 还 没有 解释 ResultScanner 实 例 里 迭代 
处 理 数据 的 内 部 流程 ， 你 的 直觉 束 会 说 :这 是 一 个 精 料 的 想法 。 即 使 
运行 迭代 循环 的 机 器 可 以 每 秒 处 理 10 MB 数据 ， 倒 腾 100 GB 推 帖 也 需 
要 将 近 3 个 小 时 1 


3.1.3 并 行 计 算 提 吐 


如 琳 并 行 处 理会 有 怎么 样 呢 ? 也 就 是 说 ， 把 GB 级 的 推 帖 数据 切片 ， 
并 行 处 理 所 有 数据 切片 。 局 动 8 个 线程 并 行 处 理 ， 处 理 时 间 会 从 3 小 时 
变 成 25 分 钟 。 一 台 8 核 笔记 本 电脑 可 以 轻松 处 理 100 GB 数据 ， 只 要 内 存 
够 用 ， 这 一 切 非 党 侧 单 。 

把 工作 分 布 到 不 同 线程 上 的 代码 如 下 所 示 : 


int numSplits = 8; 拆 分 工作 


Split[] splits = split(startrow, endrow, numSplits); 
List<Future<?>> workers = new ArrayList<Future<?>>(numSplits); 
ExecutorService es = Executors.newFixedThreadPool (numSplits),; 


£6 (EF1nal, SplNt SDLIL £ SBIES) 1 
workers.add(les.submit (new Runnable() { 分 发 工作 
public void run() { 


HTableInterface twits = pool.getTable (TABLE NAME); 
Scan s = new Scanl(split.start, split.end); 
ResultScanner results = twits.getScanner(s); 

for (Result r : results) { 


) 计算 工作 
i) 
} 
for(Future<?> £f : workers) { 


f.get(); 


a oo 
} 聚合 工作 


es .ShutdownNow() ; 

还 不 错 ， 但 有 一 个 问题 。 随 着 人 们 使 用 TwitBase 系统 ， 先 十 200 
GB 推 帖 ， 然 后 是 1 TB， 然 后 是 50 TB ! 在 笔记 本 硬盘 上 处 理 这 种 规模 
数据 是 个 严重 的 挑 成 ， 绝 对 会 变 慢 。 怎 么 办 ? 你 可 以 等 待 更 长 时 间 来 
完成 计算 ， 但 是 这 个 方案 不 会 总 是 用 数 小 时 完成 ， 将 来 会 定数 天 完 
成 。 上 面 对 计 算 并 行 化 的 思路 很 对 ， 因 此 你 可 能 想 投 入 更 多 计算 机 。 
也 许 你 会 用 10 台 漂亮 的 笔记 本 的 价钱 买 20 台 廉价 服务 器 。 

令 人 征 欣 的 并 行 化 

许多 计算 问题 本 来 很 适合 并 行 化 处 理 。 只 是 因为 一 些 侦 然 的 原 
因 ， 它 们 不 得 不 用 串 行 化 方式 处 理 。 这 些 原 因 可 能 是 编程 语言 设计 、 
存储 引擎 实现 方式 、 函 数 库 API 等 。 挑 战 一 下 你 的 算法 设计 能 力 ， 看 看 
这 样 的 情况 有 哪些 。 不 是 所 有 问题 都 容易 并 行 处 理 ， 但 是 一 旦 你 开始 
关注 ， 就 会 惊讶 竟然 如 此 之 多 。 

现在 有 了 计算 能 力 ， 你 需要 把 任务 切 分 到 那些 机 器 上 进行 并 行 计 
算 。 解 决 了 并 行 计 算 后 ， 聚 合 环节 也 需要 类 似 的 并 行 方案 。 所 有 这 一 
切 你 都 假定 所 有 事情 按照 预期 正常 工作 。 如 果 一 个 线程 卡 住 了 或 者 死 


会 坚 样 呢 ? 如 来 一 个 便 副 坏 了 或 者 机 右 出 现 了 随机 RAM 错误 会 怎样 
呢 ? 如果 执行 者 能 在 他 们 失败 的 地 方 重新 执行 会 是 一 个 解决 办 法 ， 可 
以 防止 一 个 数据 切 厂 问题 破坏 整个 安排 。 聚 合 执行 者 如 何 跟 躁 哪些 切 
片 完成 了 任务 ， 哪 些 切 片 没 有 完成 呢 ? 计 算 结 采 如 何 发 送 给 聚合 执行 
者 呢 ? 计算 任务 并 行 化 很 容易 ， 但 是 分 布 式 计算 剩 下 的 部 分 是 痛 否 的 
言 息 记录 工作 。 细 想 一 下 ， 你 写 的 每 个 计算 程序 (算法 ) 都 需要 信息 
记录 。 随 之 而 来 的 解决 办 法 是 计算 框架 。 


3.1.4 MapReduce: 用 分 布 式 计 算 最 大 化 吞吐 量 


现在 进入 Hadoop 世 界 。Hadoop 提 供 两 个 主要 组 件 来 解决 这 个 问 
题 。Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System ，HDFS) 
给 所 有 计算 机 提供 了 一 个 通用 的 、 共 享 的 文件 系统 ， 供 它们 访问 数 
据 。 这 解决 了 把 数据 配 发 给 执行 者 和 聚合 计算 结果 的 痛苦 。 执 行者 可 
以 在 HDFS 上 访问 输入 的 数据 和 写 入 计算 结果 ， 其 他 执行 者 也 能 看 到 这 
些 数据 。Hadoop MapReduce 完成 我 们 提 到 的 信息 记录 工作 、 切 分 工作 
任务 并 确保 它们 成 功 完 成 。 使 用 MapReduce， 你 所 要 编写 的 只 是 计算 工 
作 (Do Work) 和 聚合 工作 (Aggregate Work) ; Hadoop 处 理 其 他 的 一 
切 。Hadoop 把 计算 工作 称 为 Map 阶段 (Map Step) 。 育 合 工作 相应 称 
为 Reduce 阶段 (Reduce Step) 。 使 用 Hadoop MapReduce， 你 的 代码 如 
: 


public class Map 
extends Mapper<LongWritable, Text, Text, LongWritable> { 


protected void map (LongWritable key, 
Text Value, 
Context context) { 


1” 


这 段 代 码 实现 了 map 任 务 。 这 个 函数 的 输入 为 Iong 类 型 键 和 Text 类 
型 值 ， 和 输出 为 Text 类 型 键 和 LongWritable 类 型 值 。Text 和 LongWritable 类 
型 分 别 是 基本 数据 类 型 String 和 Long 在 Hadoop 中 的 类 型 。 

注意 你 不 用 写 全 部 代码 。 没 有 数据 切片 计算 ， 没 有 跟踪 ， 没 有 后 
期 线程 池 清 理 。 更 妙 的 是 ， 这 上段 代码 可 以 在 Hadoop 集 群 的 任何 地 方 运 
行 ! Hadoop 基 于 可 用 资源 ， 逻 辑 上 在 整个 集群 中 分 配 执行 角色 。 
Hadoop 人 确 你 每 台 机 絮 得 到 twits 表 的 一 个 数据 切片 。Hadoop 确 你 计算 
工作 没有 拖 后 腿 的 ， 即 使 执行 者 月 江 。 

聚合 工作 代码 也 会 以 类 似 的 方式 提交 给 整个 集群 。 在 Hadoop 里 代 
码 如 下 : 


public class Reduce 
extends Reducer<Text, LongWritable, Text, LongWritable> { 


protected void reduce (Text key, 
Iterable<LongWritable> vals, 
Context context) { 


5 < 一 一 一 
聚合 工作 
} 

这 职 是 reduce 任 务 。 这 个 函数 收 到 map 输 出 的 [String,Long] 键 值 对 ， 
生成 新 的 [String,Long] 键 值 对 。Hadoop 也 会 处 理 输出 的 收集 工作 。 本 例 
中 ，[String,Long] 键 值 对 写 回 到 HDFS。 你 也 可 能 把 输出 写 回 到 HBase。 
HBase 提 供 了 TableMapper 和 TableReducer 类 来 帮助 完成 这 两 项 任务 。 

你 已 经 掌握 什么 时 候 和 为 什么 会 使 用 MapReduce 而 不 是 直接 基于 
HBase API 编程 。 现 在 我 们 来 快速 了 解 一 下 MapReduce 框 架 。 如 有 果 你 已 
经 网 悉 Hadoop MapReduce， 请 跳 到 3.3 广 。 


3.2 HadoopMapReduce 概 览 


为 了 提供 一 个 普遍 适用 的 、 可 靠 的 、 容 错 的 分 布 式 计算 框架 ， 
MapReduce 对 于 如 何 实 现 应 用 程序 有 一 些 限制 条 件 。 这 些 限制 条 件 如 
下 o 

四 所 有 计算 都 分 解 为 map 或 者 reduce 任 务 来 实现 。 

目 每 个 任务 处 理 全 部 输入 数据 中 的 一 部 分 。 

晶 主要 根据 输入 数据 和 输出 数据 定义 任务 。 

四 任务 依赖 于 自己 的 输入 数据 ， 不 需要 与 其 他 任务 通信 。 

Hadoop MapReduce 使 用 map 和 reduce 函 数 来 实现 应 用 程序 ， 执 行 这 
些 限 制 条 件 。 这 些 函 数组 合成 作业 (job) ， 作 为 一 个 整体 运行 ， 先 运 
行 mapper 然 后 是 reducer。Hadoop 尽 可 能 多 地 并 行 运行 任务 。 因 为 并 行 
任务 彼此 之 间 没 有 运行 依 顿 ， 只 要 map 任 务 运行 在 reduce 任 务 之 前 ， 
Hadoop 可 以 以 任何 顺序 运行 它们 。Hadoop 决 定 运行 多 少 任务 和 运行 哪 
个 任务 。 

每 个 规则 的 例外 

对 于 Hadoop MapReduce 而 言 ， 前 面 概括 的 要 点 更 像 是 指导 原则 而 
不 是 规则 。MapReduce 面 向 批 处 理 ， 意 味 着 大 部 分 设计 原则 专注 于 分 布 
式 海量 数据 批 处 理 中 的 问题 。 如 果 系 统 为 分 布 式 事件 流 实 时 处理 设 
计 ， 则 会 采用 不 同 的 方式 。 

另 一 方面 ， 许 多 其 他 符合 这 些 限 制 条 件 的 工作 负载 会 广泛 使 用 
Hadoop MapReduce。 其 中 一 些 工 作 负 载 是 IO 密集 型 的 ， 另 一 些 是 计算 
密集 型 的 。Hadoop MapReduce 框 架 是 一 种 可 以 用 在 这 两 种 作业 的 、 可 
靠 的 、 容 错 的 作业 执行 框架 。 但 是 MapReduce 是 面 问 IO 密集 型 作业 
而 优化 的 ， 它 通过 减少 网 络 传输 的 数据 量 在 减 小 网 络 瓶 贷方 面 做 了 一 
2 


3.2.1 MapReduce 数据 流 介绍 


用 Map 和 Reduce 方 式 编写 程序 需要 你 改变 一 下 解决 问题 的 思路 。 对 
于 习惯 于 其 他 常用 编程 方式 的 开发 人 员 来 说 ， 这 是 一 个 很 大 的 改变 。 
有 人 把 这 种 根本 改变 称 为 编程 范 型 的 改变 (change of paradigm) 。 不 
要 担心 ! 这 种 说 法 可 能 对 也 可 能 不 对 。 我 们 会 尽 可 能 让 MapReduce 的 思 
考 方式 变 得 简单 。MapReduce 代 表 并 行 处 理 海 量 数据 的 全 部 过 程 ， 让 我 
们 从 数据 流 的 角度 来 拆 解 分 析 一 个 MapReduce 解 决 问题 的 过 程 。 

下 面 的 例子 是 关于 一 个 应 用 服务 絮 的 日 志文 件 的 。 这 个 文件 记录 
用 户 如 何 花 时 间 使 用 该 应 用 的 信息 。 它 的 内 容 如 下 : 
Date Time UserID Activity TimeSpent 


01/01/2011 18:00 userl load pagel 35s 
01/01/2011 18:01 userl load page2 5s 
01/01/2011 18:01 user2 load pagel 25s 
01/01/2011 18:01 user3 load pagel 3s 
01/01/2011 18:04 user4 load page3 10s 
01/01/2011 18:05 userl load page3 5s 
01/01/2011 18:05 user3 load page5 3s 
01/01/2011 18:06 user4 load page4 65s 


01/01/2011 18:06 userl purchase 5S 
01/01/2011 18:10 user4 purchase 8s 
01/01/2011 18:10 userl confirm 9s 
01/01/2011 18:10 user4 confirm 11S 


01/01/2011 18:11 userl load page3 3s 


让 我 们 计算 每 个 用 户 使 用 该 应 用 所 人 花费 的 总 时 间 。 一 种 基本 的 实 
现 方 法 可 能 是 遍历 整个 文件 ， 为 每 个 用 户 加 总 TimeSpent 值 。 程 序 可 能 
使 用 UserID 〈 散 列 集合 或 是 字典 ) 作为 键 而 TimeSpent 作 为 值 做 加 总 。 
一 段 简 单 的 仿 代 码 如 下 : 


agg = {} 


for line in file: | 2 
十 自 工 
record = split (line) | [等 工作 
agg [record["UserID"]] += record["TimeSpent"] 
report (agg) 聚合 工作 


这 看 起 来 很 像 上 一 节 的 串 行 计算 的 例子 ， 对 吗 ?” 串 行 计 算 的 例子 
的 否 吐 量 受 限于 单个 机 侨 上 的 单个 线程 。MapReduce 是 为 分 布 式 并 行 处 
理 设计 的 。 并 行 处 理 问题 的 第 一 件 事 就 是 拆 解 。 请 注意 ， 输 入 文件 的 
每 行 在 处 理 时 与 其 他 所 有 行 是 独立 的 ， 不 同行 的 数据 只 是 在 聚合 阶段 
才 走 到 一 起 。 这 意味 着 输入 文件 可 以 按照 任意 行 数 并 行 处 理 、 独 立 处 
理 ， 然 后 聚合 生成 相同 的 结果 。 让 我 们 把 日 志文 件 切 分 成 4 份 ， 分 配给 
4 台 不 同 的 机 器 处 理 ， 如 图 3-1 所 示 。 
01/01/201] 18:00 userl load pagel 


3 
01/01/2011 18:01 userl load page2 5s Hostl 
01/01/2011 18:01 user2 load pagel 25 


01/01/2011 18:01 user3 load pagel 3S 
01/01/201] 18:04 user4 load page3 10s Host2 
01/01/2011 18:05 userl load page3 SS 


YE 


01/01/2011 18:05 user3 load page5 3S 
01/01/201]1 18:06 user4 load page4 6s Host3 
01/01/2011 18:06 userl purchase 5s 
01/01/2011 18:10 user4 ”purchase 8S 
01/01/2011 18:10 userl confirm 9s Host4 
01/01/2011 18:10 user4 confirm lls 
01/01/2011 18:11 userl load page3 35s 


图 3-1 拆 解 和 分 配 工 作 。 日 志文 件 中 每 条 记录 可 以 独立 处 理 ， 所 以 
根据 可 用 的 执行 者 数量 来 拆 解 

仔细 看 看 这 些 拆 解 方式 。 除 了 以 行为 单位 拆 解数 据 ，Hadoop 不 需 

要 知道 其 他 的 。 符 别 是 不 需要 化 费 精 力 按照 UserID 来 分 组 。 这 一 点 很 


重要 ， 稍 后 我 们 再 讨论 。 

现在 是 拆 解 和 分 配 工作 。 如 何 重 写 程 序 来 处 理 日 志文 件 呢 ? 如 同 
在 map 和 reduce 函 数 中 看 到 的 ，MapReduce 使 用 键 值 对 进行 处 理 。 对 于 
日 志文 件 这 种 面向 行 的 数据 ，Hadoop 使 用 键 值 对 [line number:line]。 
在 整个 MapReduce 工作 流程 中 ， 我 们 一 般 把 第 一 组 键 值 对 称 为 
[kLv1]。 让 我 们 移 编 写 Map 阶 段 程序 ， 再 次 使 用 伪 代 码 如 下 : 


def map(line num, line): \ 

orp ee 计算 工作 
record = split (line) <— 
emit (recordl["UserID"], record["TimeSpent"]) 


Map 阶 段 根据 文件 中 的 行 来 定义 。 对 于 日 志文 件 中 的 每 一 行 ，Map 
阶段 把 行 分 离 出 来 并 且 生 成 一 个 新 键 值 对 [UserID:TimeSpentl。 这 段 伪 
代码 中 ，emit 函数 负责 问 Hadoop 报 告 生 成 的 键 值 对 。 你 可 能 猜 到 了 ， 
我 们 把 第 二 组 键 值 对 称 为 [k2,v2]。 图 3-2 继 续 处 理 图 3-1 中 的 数据 。 

在 Hadoop 把 [k2,v2] 键 值 对 传递 给 Reduce 阶段 之 前 ， 有 必要 做 一 
点 信息 记录 工作 。 还 记得 按照 UserID 分 组 吗 ? Reduce 阶 段 期 望 基于 某 
个 指定 的 UserID 处 理 所 有 的 TimeSpent。 为 此 ， 分 组 工作 现在 出 现 了 。 
Hadoop 称 为 洗 牌 阶段 (Shuffle Step) 和 排序 阶段 (Sort Step) 。 图 3-3 
所 示 解 释 了 这 些 阶 段 。 


Hostl 


"01/01/2011 18:00 userl load pagel3s" 
"01/01/2011 18:01 userl load page25s" kis 


"01/01/2011 18:01 user2 load pagel2s" 


| 
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图 3-2 计算 工作 。 分 配给 Host1 的 数据 [kl,v1] 以 行 号 和 行内 容 键 值 
对 的 形式 传送 给 Map 阶 段 ，Map 阶段 处 理 每 一 行 ， 生 成 [k2,v2]， 即 
[UserID, TimeSpent] 键 值 对 


Hostl Host2 Host3 Host4 
1 sr1n s menm meer3Snm @ no meera3nm ® mmQem Wapy dA" . Woe 
"userl" ， "So" nuUSserdn :+ "10s" "serd" ， "6s" nuserln ， 


Ws :| [k2, v2] 


" 村 ma 人文 有 
, - 
1 
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图 3-3 Hadoop 自 动 执行 洗 牌 和 排序 阶段 。 该 过 程 处 理 Map 阶段 的 输 
出 ， 为 Reduce 阶段 聚合 做 准备 。 在 过 程 中 不 会 改变 值 ， 只 是 重新 组 合 
数据 
MapReduce 从 所 有 4 台 服 务 器 上 的 Map 阶 段 得 到 输出 [k2,v2] 键 值 
对 ， 然 后 分 派 给 reducer。 每 个 reducer 被 分 派 一 组 UserID 值 ， 然 后 从 
mapper 人 点 复制 相应 的 键 值 对 [k2,v2]。 这 叫做 洗 牧 阶段 。reduce 任 务 期 
望 同 时 处 理 所 有 k2 的 值 ， 所 以 对 键 排序 是 必需 的 。 排 序 阶段 的 输出 是 


每 个 UserID 的 Times 列 表 [k2,<v2>]。 分 组 完成 后 ， 运 行 reduce 任 务 。 聚 
合 工作 代码 如 下 : 


def reduce (user, times): 


for time in times: 聚合 工作 


sum += 七 Ime 
emit (user, sum) 
Reduce 阶段 处 理 [k2,<v2>] 键 值 对 输入 ， 并 聚合 生成 
[UserID:TotalTime] 键 值 对 。 这 些 加 总 结果 由 Hadoop 收 集 并 写 入 输出 目 
的 地 。 图 3-4 所 示 解 释 了 最 后 这 个 步骤 。 
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图 3-4 聚合 工作 。 服 务 器 处 理 [k2,<v2>], 即 [UserID, <Times>] 键 值 
对 ， 加 总 ， 最 后 结 采 写 回 到 Hadoop 
如 果 你 愿意 ， 可 以 运行 这 段 程序 ， 源 代码 收集 在 TwitBase 源 代码 
中 。 为 此 要 编译 JAR 应 用 包 ， 然 后 局 动作 业 ， 如 下 所 示 : 


$ mvn clean package 

[INFO] Scanning for projects... 

[INFO] 

[INFO] ---------- 


[INFO] -------- 


[INFO] ----------- 
[INFO] BUILD SUCCESS 
[INFO] ----------- 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.mapreduce.TimeSpent \\ 
src/test/resource/listing\ 3.3.txt ./out 


22:53:15 INFO mapred.JobClient: Running job: job local 0001 

22:53:15 INFO mapred.Task: Using ResourceCalculatorpPlugin : null 

22:53:15 INFO mapred.MapTask: io.sort.mb = 100 

22:53:15 INFO mapred.MapTask: data buffer = 79691776/99614720 

22:53:15 INFO mapred.MapTask: record buffer = 262144/327680 

22:53:15 INFO mapred.MapTask: Starting flush of map output 

22:53:15 INFO mapred.MapTask: Finished spill 0 

22:53:15 INFO mapred.Task: Task:attempt local 0001 m 000000 0 is done. And is 
in the process of commiting 

22:53:16 INFO mapred.JobClient: map 0% reduce 0% 


22:53:21 INFO mapred.Task: Task '‘'attempt local 0001 r 000000 0' done. 
22:53:22 INFO mapred.JobClient: map 100% reduce 100% 

22:53:22 INFO mapred.JobClient: Job complete: job local 0001 

$ cat out/part-r-00000 


userl 30 
user2 2 
user3 6 
user4 35 


这 就 是 MapReduce 的 数据 流程 。 每 个 MapReduce 应 用 执行 全 部 步 
又 ， 或 者 是 大 部 分 步 又 。 如 果 你 可 以 模仿 这 些 基 本 的 步骤 ， 就 成 功 掌 
握 了 这 种 新 程序 范 型 。 


3.2.2 MapReduce 内 部 机 制 


构建 一 个 通用 的 、 分 布 式 、 并 行 计算 系统 是 很 不 容易 的 。 这 正 是 
我 们 要 把 这 个 问题 交 给 Hadoop 的 原因 所 在 ! 尽管 如 此 ， 了 解 事情 是 如 
何 实现 的 还 是 很 有 用 的 ， 无 其 是 当 你 追 踩 一 个 Bug 时 。 我 们 知道 ， 


Hadoop 是 一 分 布 式 系统 。 几 个 独立 的 组 件 构成 了 整个 框架 。 让 我 们 逐 
个 了 解 它 们 ， 看 看 是 什么 让 MapReduce 如 此 精密 地 工作 的 。 

一 个 叫 JobTracker 的 进程 扮演 着 应 用 监管 角色 。 它 负责 管理 集群 上 
运行 的 MapReduce 应 用 。 作 业 提 交 给 JobTracker 来 执行 ， 它 管理 分 配 工 
作 负 载 。 它 也 负责 记录 作业 的 各 个 部 分 的 运行 情况 ， 确 保重 新 启动 失 
败 的 任务 。 一 个 Hadoop 集群 可 以 同时 运行 多 个 MapReduce 应 用 。 
JobTracker 人 负责 监 管 资源 利用 率 和 作业 时 间 表 安排 等 。 

Map 阶段 和 Reduce 阶段 定义 的 工作 由 男 一 个 叫做 TaskTracker 的 
进程 来 执行 。JobTracker 和 TaskTracker 之 间 的 关系 如 图 3-5 所 示 。 它 们 是 
真正 的 工作 进程 。 单 个 TaskTracker 没 有 特殊 化 设置 。 任 何 TaskTracker 
都 可 以 运行 任何 作业 的 任何 任务 ， 无 论 是 map 还 是 reduce。Hadoop 是 智 
能 地 而 不 是 随意 地 把 工作 布置 在 站 点 上 的 。 

我 们 说 过 ，Hadoop 专 门 为 最 小 化 网 络 IO 而 优化 。 它 通过 把 计算 尽 
可 能 靠近 数据 来 实现 这 一 点 。 典 型 的 Hadoop 环境 中 ，HDFS DataNode 
和 MapReduce TaskTracker 一 般 并 列 配置 在 一 起 。 这 样 map 和 reduce 任 
务 可 以 运行 在 存放 数据 的 同一 个 物理 节点 上 。Hadoop 这 样 做 可 以 避免 
在 网 络 上 传输 数据 。 如 果 不 能 在 同一 物理 节点 上 运行 任务 ， 会 选择 在 
同一 机 染 的 机 絮 上 运行 任务 ， 最 坏 的 选择 才 是 在 不 同 机 染 的 机 器 上 运 
行 。HBase 出 现 后 ， 也 采用 同样 的 理念 ， 但 是 一 般 而 言 HBase 部 署 和 标 
准 的 Hadoop 部 署 有 所 不 同 。 你 将 在 第 10 章 学 习 HBase 部 署 策 略 。 


Hadoop MapReduce 
图 3-5 JobTracker 和 TaskTracker 负 责 执行 提交 到 集群 的 MapReduce 应 
用 


3.3 分 布 式 模式 的 HBase 


到 现在 为 止 你 已 经 知道 了 HBase 是 一 种 搭建 在 Hadoop 上 面 的 数据 
库 ， 有 了 时 也 称 为 Hadoop 数 据 库 ， 这 就 是 这 个 名 字 的 缘由 。 理 论 上 HBase 
可 以 运行 在 任何 分 布 式 文件 系统 上 面 。 只 是 HBase 和 Hadoop 的 集成 更 加 
紧密 ， 旦 与 其 他 分 布 式 文件 系统 相 比 ，HBase 投 入 了 更 多 的 研发 努力 ， 
使 得 与 HDFS 工 作 得 更 好 一 些 。 当 然 ， 理 论 上 讲 ， 其 他 文件 系统 没有 理 
由 不 文 持 HBase。HBase 把 数据 存放 在 一 个 提供 单一 命名 空间 的 分 布 式 
文件 系统 上 ， 这 是 一 个 使 HBase 满 足 可 扩展 性 和 容错 性 的 重要 因素 。 这 
个 重要 因素 帮助 HBase 成 为 一 种 完全 一 致 的 数据 库 。 

HDFS 天 生 是 一 种 可 扩展 的 存储 ， 但 是 还 不 足以 文 择 HBase 成 为 一 
种 低 延 迟 的 数据 库 。 这 里 还 需要 一 些 其 他 的 因素 ， 本 和 你 会 了 解 到 。 
为 了 优化 设计 应 用 ， 理 解 这 些 内 容 很 重要 。 这 些 知识 可 以 帮助 你 做 出 
明智 的 选择 ， 诸 如 如 何 访问 HBase， 键 应 该 如 何 设计 ， HBase 应 该 如 何 
配置 ， 等 等 。 应 用 开发 人 员 本 不 该 为 HBase 配置 费心 ， 但 是 在 HBase 
搭建 初期 你 很 可 能 需要 承担 这 方面 的 工作 。 


3.3.1 切 分 和 分 配 大 表 


和 其 他 数据 库 一 样 ，HBase 中 的 表 也 是 由 行 和 列 组 成 的 ， 虽 说 模 
式 有 些 不 同 。HBase 中 的 表 可 能 达到 数 十 亿 行 和 数 百 万 列 。 每 个 表 的 大 
小 可 能 达到 TB 级 ， 有 了 时 甚至 PB 级 。 显 然 不 可 能 在 一 台 机 器 上 存放 整个 
表 。 相 反 ， 表 会 切 分 成 小 一 点 儿 的 数据 单位 ， 然 后 分 配 到 多 台 服 务 妖 
上 。 这 些小 一 点 儿 的 数据 单位 叫做 region (如 图 3-6 所 示 ) 。 托 管 region 
的 服务 硕 叫 做 RegionServer 。 
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表 T1 拆 分 成 3 个 region 一 一 R1、R2 和 R3 


图 3-6 一 张 表 由 多 个 小 一 点 儿 的 region 组 成 


RegionServer 和 HDFS DataNode (如 图 3-7 所 示 ) 典型 情况 下 并 列 
配置 在 同一 物理 硬件 上 ， 虽 说 这 不 是 必需 的 。 实 际 上 ， 唯 一 的 要 求 是 
RegionServer 必 须 能 够 访问 HDFS。RegionServer 本 质 上 是 HDFS 客 户 


端 ， 在 上 面 存 储 /访问 数据 。 主 (master) 进程 分 配 region 给 


RegionServer， 每 个 RegionServer 一 般 托 管 多 个 region 。 
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图 3-7 HBase RegionServer 和 HDFS DataNode 典 型 情况 下 并 列 配 置 在 
同一 合 主机 上 

考虑 到 基础 数据 存储 在 HDFS 上 ， 所 有 客户 端 都 可 以 在 一 个 命名 罕 
间 下 访问 。 所 有 RegionServer 都 可 以 访问 文件 系统 里 同一 个 文件 ， 因 此 
RegionServer 可 以 托管 任何 region 〈 见 图 3-8) 。 通 过 DataNode 和 
RegionServer 并 列 配 置 ， 你 可 以 利用 数据 本 地 处 理 特点 ， 也 吏 是 说 ， 理 
论 上 RegionServer 可 以 把 本 地 DataNode 作 为 主要 DataNode 进 行 读 写 操 
作 。 
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图 3-8 任何 RegionServer 可 以 托管 任何 region。RegionServer 1 和 
RegionServer 2 托管 着 region， 但 是 RegionServer 3 没有 
你 可 能 想 知 道 这 种 体系 里 TaskTracker 放 到 哪里 去 了 。 在 某 些 HBase 


部 署 中 ， 如 果 工 作 人 负载 主 要 是 随机 读 写 ，MapReduce 框 架 根本 就 不 需 
部 署 。 男 外 一 些 HBase 部 署 中 ，MapReduce 计 算 也 是 工作 负载 的 一 音 
分 ， 那 么 TaskTracker、DataNode 和 HBase RegionServer 可 以 一 起 运行 。 


单个 region 大 小 由 配置 参数 HBase.hregion.max.filesize 决 定 ， 这 个 参 
数 在 你 的 部 署 中 的 hbase-site.xml 文件 里 设 定 。 当 一 个 region 大 小 变 得 
大 于 该 值 (因为 写 入 了 更 多 数据 ) 时 ， 它 会 切 分 成 两 个 region 。 


3.3.2 如 何 找到 region 


你 已 经 学 习 了 把 表 切 分 成 region ， 然 后 不 按 任何 预定 规则 地 把 
region 分 配给 RegionServer。 也 许 你 觉得 奇怪 ， 难 道 region 不 会 在 运行 
的 系统 中 移动 位 置 ! 当 region 切 分 时 (因为 它们 增长 得 太 大 ) ， 当 
RegionServer 宕 机 时 ， 或 者 当 新 RegionServer 添 加 进来 时 ， 会 发 生 region 
分 配 动 作 。 这 里 有 一 个 重要 问题 : “ 当 一 个 region 分 配给 RegionServer 
时 ， 我 的 客户 端 应 用 (提出 读 写 要 求 的 ) 如 何 知 道 它 的 位 置 ? ” 

HBase 中 有 两 个 特殊 的 表 ，-ROOT 和 .META.， 用 来 查找 各 种 表 的 
region 位 置 在 哪里 。-ROOT- 和 .META. 像 HBase 中 其 他 表 一 样 也 会 切 分 
成 region。-ROOT 和 .META. 都 是 特殊 的 表 ， 但 是 -ROOT- 比 .META. 更 
特殊 一 些 ，-ROOT- 永 远 不 会 切 分 超过 一 个 region。.META. 和 其 他 表 一 
样 可 以 按 需 要 切 分 成 许多 region 。 

当 客 户 端 应 用 要 访问 某 行 时 ， 它 先 找 -ROOT- 表 ， 查 找 什么 地 方 可 
以 找到 负责 某 行 的 region。-ROOT 指 向 .META. 表 的 region， 那 里 有 这 
个 问题 的 答案 。.META. 表 由 入 口 地 址 组 成 ， 客 户 端 应 用 使 用 这 个 入 口 
地 址 判断 哪 一 个 RegionServer 托管 竺 查找 的 region。 这 个 查找 过 程 束 像 
一 个 3 层 分 布 式 B+ 树 〈 见 图 3-9) 。-ROOT 表 是 B+ 树 的 -ROOT- 节 
点 。.META. region 是 -ROOT- 节 点 (-ROOT-region) 的 叶子 ， 用 户 表 的 
region 是 .META. region 的 叶子 。 


-ROOT- 表 只 包含 1 个 region， 
托管 在 RegionServer 
RS1 上 面 


M3 1 .METR. 表 包含 3 个 region， 托 
4 一 一 所 一 寺 管 在 RS1、RS2 和 RS3 上面 


-1 -一 -1 用 户 表 T1 和 7T2 分 别 包含 3 个 和 
1 TIR3 | TaR2 | 1 TPR3 1 T2R4 1 4 个 region， 分 布 在 RS1、RS2 
[ 一 一 一 一 上 一 一 Lm Lo 

RS3 RS2 RS1 Ri 和 RS3 二 而。 


图 3-9 -ROOT-、.META. 和 用 户 表 的 B+ 树 视图 
让 我 们 把 -ROOT- 和 .META. 放 进 这 个 例子 ， 见 图 3-10。 请 注意 这 里 
表示 的 region 分 配 是 随意 的 ， 不 代表 这 种 系统 被 部 署 时 会 如 此 分 配 。 
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HosG3 M:T100001-M:T100009 ™M RegionServer 3 (RS3) 只 托 
M:T100010-M:T100012 KM 管 了 -ROOT- 
图 3-10 HBase 中 的 用 户 表 T1 以 及 -ROOT 和 .META.， 分 布 在 各 个 
RegionServer 上 


刚才 学 习 了 -ROOT 和 .META. 表 如 何 帮 助 找 出 系统 中 的 其 他 
region。 这 时 你 可 能 还 有 一 个 问题 : “-ROOT 表 在 哪里 昵 ? ”我 们 现在 来 
回答 这 一 问题 。 

另 一 个 叫做 ZooKeeper 的 系统 提供 了 HBase 系 统 的 入 口 点 

(http:/zookeeper.apache.org/) 。 如 ZooKeeper 的 网 站 所 述 ，ZooKeeper 


是 一 种 集中 服务 ， 用 来 维护 配置 信息 、 命 名 服务 、 提 供 分 布 式 同步 和 
提供 分 组 服务 等 。 这 是 一 种 高 可 用 的 、 可 靠 的 分 布 式 配 置 服务 。 就 像 
HBase 模 仿 了 了 Google 的 BigTable 一 样 ，ZooKeeper 模 仿 的 是 Google 的 
Chubby 。 [29) 

如 前 所 述 ， 客 户 端 与 HBase 系统 的 交互 分 几 个 步 又 ，ZooKeeper 
是 入 口 点 。 这 些 步 又 如 图 3-11 所 示 。 


客户 端 -> -ROOT- table on RS1: 哪 一 个 .METR . 


region 可 以 帮 我 找到 表 T1 里 的 行 00009? 


客户 端 RSL 上 的 -ROOT- 表 -> 客户 端 : 在 RegionServer 


RS3 上 的 .META. region M2 可 以 找到 。 
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客户 端 ->RS3 上 的 .NETA. region M2: 我 要 读 取 
表 T1 的 行 00009。 在 哪 一 个 region 上 可 以 找到 ? 哪 
4 一 个 RegionServer 为 它 提供 服务 呢 ? 


第 6 步 
客户 端 RS3 上 的 .META. region M2 -> 客户 端 : 
在 RegionServer RS3 上 面 的 region TIR3。 
第 7 步 RSI RS2 
客户 端 客户 端 ->RS3 上 的 region TIR3: 我 要 读 取 行 00009。 
8 步 
第 RSI RS2 
客户 端 


RS3 上 的 region TIR3 -> 客户 端 : 好 的 ， 拿 去 吧 。 


图 3-11 客户 端 与 HBase 系 统 交 互 的 步 又 。 访 问 从 ZooKeeper 开 始 ， 
最 后 到 达 客 户 端 需要 访问 的 region 所 在 的 RegionServer。 对 RegionServer 
的 访问 可 能 是 读 或 写 。-ROOT 和 .META. 的 信息 缓存 在 客户 端 ， 以 备 将 
来 访问 使 用 ， 如 果 访 问 region 所 对 应 的 节点 不 存在 将 会 刷新 该 信息 
本 广 概 要 介绍 了 Hbase 的 分 布 式 架构 的 实现 方式 。 你 可 以 在 自己 的 
集群 上 观察 所 有 这 些 细 方 。 我 们 会 在 附录 人 A 全 面 介绍 ZooKeeper、- 
ROOT 和 .META.。 


3.4 HBase 和 MapReduce 


现在 你 对 分 布 式 的 MapReduce 和 HBase 有 了 理解 ， 让 我 们 看 看 两 者 
是 如 何 一 起 工作 的 。 从 MapReduce 应 用 访问 HBase 有 3 种 方式 。 作 业 开 
始 时 可 以 用 HBase 作 为 数据 源 (data source) ， 作 业 结 束 时 可 以 用 HBase 
接收 数据 (data sink) ， 任 务 过 程 中 用 HBase 共 享 资源 (shared 
resource) 。 这 3 种 访问 方式 并 不 特别 难以 理解 。 但 是 第 三 种 方式 有 些 
有 趣 的 使 用 场景 ， 我 们 稍 后 讨论 。 

本 节 中 所 有 代码 片段 都 是 使 用 Hadoop MapReduce API 的 例子 。 这 
里 没有 涉及 HBase 客 户 端 HTable 和 HTablePool 实 例 。 它 们 已 经 人 能 入 用 到 
的 特殊 输入 和 输出 格式 里 了 。 但 是 你 会 用 到 已 经 熟悉 的 Put、Delete 和 
Scan 对 象 。 创 建设 置 Hadoop 作 业 和 配置 实例 是 一 件 繁 琐 的 工作 。 这 些 
代码 片段 将 强调 计算 工作 中 的 HBase 部 分 。 在 3.5 节 你 会 看 到 一 个 完整 
的 例子 。 

3.4.1 HBase 作 > 源 


在 前 面 MapReduce 应 用 的 例子 中 ， 需 要 从 存储 于 HDFS 的 日 志文 件 
里 读 出 行 。 特 别 是 保存 这 些 文件 的 HDFS 目录 经 常用 作 MapReduce 作 
业 的 数据 源 。 数 据 源 的 模式 把 [line number:line] 解 释 为 [kl,v1] 键 值 对 。 


MapReduce 作 业 中 使 用 TextInputFormat 类 来 定义 这 种 模式 。TimeSpent 
例子 中 的 相关 代码 如 下 : 


Configuration conf = new Configuration(),; 
Job job = new Job (conf, "TimeSpent"),; 


job.setIinputFormatClass (TextInputFormat .class); 
job.setOutputFormatClass (TextOutputFormat .class),; 


TextInputFormat 把 [k1,v1] 键 值 对 中 的 line number 和 line 的 类 型 分 
别 定义 为 LongWritable 和 Text。LongWritable 和 Text 是 在 Java 的 基本 数据 
类 型 Long 和 String 上 封装 的 序列 化 Hadoop 类 型 。 相 应 的 map 任 务 定义 中 
使 用 这 些 输入 键 值 对 类 型 
public void map (LongWritable key, Text value, 
Context context) { 


} 


HBase 提 供 了 类 似 的 类 来 使 用 表 中 的 数据 。 你 会 使 用 前 面 用 到 的 
Scan 类 从 HBase 中 取出 数据 。 内 部 机 制 中 ， 由 Scan 定义 的 范围 取出 的 行 
会 被 切 分 并 分 配给 所 有 服务 器 〈 见 图 3-12) 。 

每 个 region 对 应 一 个 map 任 务 。 
这 些 任务 把 对 应 region 的 键 范 围 


作为 它们 的 输入 数据 切片 ， 并 在 
上 面 执 行 扫描 。 


由 RegionServer 提 供 服务 的 region 


RegionServer RegionServer RegionServer 


图 3-12 MapReduce mapper 作 业 从 HBase 中 取得 region 作 为 输入 源 。 
每 个 region 默 认 建 立 一 个 mapper 
这 和 图 3-1 中 的 数据 切 分 是 相同 的 。 在 MapReduce 里 ， 创 建 实例 扫 
描 表 中 所 有 行 ， 如 下 所 未 : 


Scan Scan = new Scan() ; 
scan.addColumn (Bytes .上 oOBytes ("twits"), 


本 例 中 ， 要 求 扫 描 絮 返回 twits 表 中 的 推 帖 文 本 。 

如 同 使 用 行文 本 文件 ， 使 用 HBase 记录 也 需要 一 种 模式 。 从 
HBase 表 中 读 取 的 作业 以 [rowkey:scan result] 格 式 接 收 [k1,v1] 键 值 对 。 
扫描 器 的 结果 和 使 用 常规 HBase API 是 一 样 的 。 它 们 对 应 的 类 型 是 
ImmutableBytesWritable 和 Result。 系统 提供 的 TableMapper 封装 了 这 些 
细 方 ， 你 会 使 用 它 作 为 基 类 来 实现 你 的 Map 阶段 功能 : 


protected void map ( 


ImmutableBytesWritable rowkey, 
FOSUL bY Teo tb, 定义 map 任务 接收 的 [kl,v1] 的 输入 
SR 类 型 ， 本 例 中 这 些 类 型 来 自 于 扫描 器 


Bytes.toBytes ("twit")); 


下 一 步 在 MapReduce 中 使 用 Scan 实 例 。HBase 提 供 了 方便 的 
TableMapReduceUtil 类 来 帮助 你 初始 化 Job 实 例 : 
TableMapReduceUtil.initTableMapperJob\( 
“twiteas", 
scan, 


Map.class, 
ImmutableBytesWritable.class, 


Result.class, 
]job ) ; 


这 一 步 会 配置 作业 对 象 ， 建 立 HBase 特 有 的 输入 格式 
(TableInputFormat) 。 然 后 设置 MapReduce 使 用 Scan 实例 来 读 出 表 的 
记录 。 这 一 步 会 出 现在 Map 和 Reduce 类 的 实现 里 。 从 现在 开始 ， 你 可 以 


一 一 


像 平 单一 样 编写 和 运行 MapReduce 应 用 。 


当 你 执行 如 上 所 述 的 MapReduce 作 业 时 ，HBase 表 的 每 个 region 会 
局 动 一 个 map 任 务 。 换 名 话说，map 任 务 是 分 解 的 ， 每 个 map 任 务 分 别 


读 取 一 个 region。JobTracker 尽 可 能 围绕 region 就 近 安排 map 任 务 ， 充 分 
利用 数据 的 本 地 性 。 


3.4.2 HBase 
从 MapReduce 往 HBase 表 里 面 写 入 数据 ( 见 图 3-13) 和 读 出 数据 从 


实现 角度 而 言 是 类 似 的 。 


reduce 任 务 写 入 HBase region。reduce 
任务 不 一 定 写 入 同一 台 物 理 主机 的 region 
上 。 它 们 有 可 能 写 入 任何 一 个 包含 要 写 入 
的 键 范围 的 region。 这 种 做 法 的 潜台词 是 
所 有 reduce 任 务 可 能 会 写 入 集群 里 的 所 
有 region。 


由 ResgionServer 提 供 服务 的 region 


图 3-13 HBase 接 收 MapReduce 作 业 数 据 。 本 例 中 ，reduce 任 务 正 写 
入 HBase 

HBase 提 供 了 类 似 的 工具 来 衍化 配置 过 程 。 让 我 们 先 看 一 个 标准 
MapReduce 应 用 的 数据 接收 配置 的 例子 。 

在 TimeSpent 例 子 中 ， 聚 合 右 生成 的 [k3,v3] 键 值 对 是 
[UserID:TotalTime]。 在 MapReduce 应 用 中 ， 它 们 分 别 是 Hadoop 序 列 化 
类 型 Text 和 LongWritable。 配 置 输出 类 型 和 配置 输入 类 型 类 似 ， 不 同 之 
处 在 于 [k3,v3] 输 出 类 型 需要 明确 定义 而 不 能 由 OutputFormat 默 认 指 定 。 

Configuration conf = new Configuration() ; 
Job job = new Job (conf，'"TimeSpent'" ) ; 


job.setOutputKeyClass (Text .class); 
job.setOutputValueClass (LongWritable.class),; 


job.setIinputFormatClass (TextInputFormat .class); 
Job.setOutputFormatClass (TextOutputFormat.class),; 


本 例 中 没有 指定 行 号 。 相 反 ，TextOuputFormat 模 式 生 成 用 Tab 做 分 
隔 符 的 输出 文件 ， 第 一 部 分 内 容 是 UserID， 然 后 是 TotalTime。 写 入 便 


盘 的 是 代表 两 种 类 型 的 字符 串 (String) 。 
Context 对 象 包 含 数据 类 型 信息 。 这 里 定义 reduce 函 数 如 下 : 


public void reduce (Text key, Iterable<LongWritable> values, 
Context context) { 


} 
当 从 MapReduce 写 入 HBase 时 ， 你 会 再 一 次 用 到 常规 HBaseAPI。 假 
定 [k3,v3] 键 值 对 的 类 型 是 一 个 行 键 和 一 个 操作 HBase 的 对 象 。 这 意味 着 
V3 的 值 可 能 是 Put 或 Delete。 因 为 这 两 种 对 象 类 型 包括 相应 的 行 键 ，k3 
的 值 可 以 忽略 。 和 使 用 TableMapper 封 装 细 节 一 样 ，TableReducer 也 是 如 
此 : 


protected void reducel( 


ImmutableBytesWritable rowkey, 
Iterable<Put> values, 定义 reducer 的 [k2,{v2}] 的 输入 类 型 ， 它 


PY i 们 是 map 任务 输出 的 中 间 键 值 对 。 


最 后 一 步 是 把 reducer 填 入 到 作业 配置 中 。 你 需要 使 用 合适 的 类 型 
定义 目标 表 。 再 一 次 使 用 TableMapReduceUtil， 它 为 你 设置 
TableOutputFormat! 这 里 使 用 系统 提供 的 IdentityTableReducer 类 ， 
为 你 不 需要 在 Reduce 阶段 执行 任何 计算 : 

TableMapReduceUtil.initTableReducerJob( 
"users", 


IdentityTableReducer.class, 
se 本- 


现在 作业 完全 准备 好 了 ， 你 可 以 像 通 常 一 样 执行 。 和 map 任 务 从 
HBase 读 取 数 据 时 不 同 ， 一 个 reduce 任 务 可 以 不 必 只 对 应 一 个 region 。 
reduce 任 务 会 按照 行 键 写 入 负责 相应 行 键 的 region。 默 认 情 况 下 ， 当 分 
区 执行 者 分 配 中 间 键 给 reduce 任 务 时 ， 它 不 知道 region 和 托管 它们 的 机 
右 ， 因 此 不 能 智能 地 分 配 工 作 给 reducer 以 文 持 它们 写 入 本 地 region。 此 


外 ， 根 据 在 reduce 任 务 中 的 写 入 逻辑 ， 可 能 不 一 定 只 十 写 入 同一 个 
reducer， 你 可 能 最 终 需 要 写 入 整个 表 。 


3.4.3 HBase 


使 用 MapReduce 读 取 或 者 写 入 HBase 是 很 方便 的 。 这 给 了 我 们 一 
种 手段 来 处 理 HBase 中 的 数据 。HBase 附 带 了 一 些 预定 义 的 MapReduce 
作业 ， 你 可 以 研究 这 些 源 代 码 ， 它 们 是 使 用 MapReduce 访 问 HBase 的 范 
例 。 但 是 我 们 还 能 用 HBase 做 些 什 么 呢 ? 

一 种 常见 的 例子 是 支持 大 型 的 Map 侧 联 结 (map-side join) 。 这 种 
情况 下 ， 把 HBase 看 做 是 一 个 建立 了 索引 的 数据 源 ， 供 所 有 map 任务 共 
享 访问 读 取 。 你 会 问 ， 什 么 是 map 侧 联结 ? HBase 如 何 支 持 它 昵 ?好 问 
题 ! 

让 我 们 回顾 一 下 。 联 结 (join) 是 一 种 常见 的 数据 操作 。 联 结 的 意 
图 就 十 在 两 个 不 同 的 数据 集 上 基于 一 个 共同 属性 的 相同 值 把 数据 记录 
联合 起 来 。 那 个 共同 属性 经 常 叫做 联结 键 (join key) 。 

例如 ， 回 想 一 下 TimeSpent MapReduce 作 业 。 该 作业 生成 一 个 数据 
集 ， 包 仿 UserID 和 他 们 花费 在 TwitBase 网 站 的 TotalTime 。 

UserID TimeSpent 


Yvonn66 305s 
Mario23 2S 
Rober4 6S 
Masan46 355s 


你 还 有 一 个 包含 用 户 信息 的 TwitBase 表 ， 如 下 所 示 : 


UserID Name Email TwitCount 
Yvonn66 Yvonne Marc Yvonn66@unmercantile.com 48 
Masan46 Masanobu Olof Masan46@acetylic.com 47 
Mario23 Marion Scott Mario23@Wahima .com 56 


Rober4 Roberto Jacques Rober4@slidage .com 2 


你 想 知 道 用 户 花 在 网 站 上 的 总 时 间 和 他 们 发 出 的 总 推 帖 数 的 比 
值 。 现 在 相关 数据 分 散在 两 个 不 同 的 数据 集 里 ， 虽 说 这 个 问题 很 简 
单 。 你 想 在 一 行 中 联结 用 户 的 所 有 信息 。 这 两 个 数据 集 有 一 个 公共 属 


性 一 UserID。 这 就 是 联结 键 。 执 行 联结 ， 去 掉 没 用 的 字段 ， 结 果 如 
下 : 
UserID TwitCount TimeSpent 
Yvonn66 48 30S 
Mario23 56 2S 
Rober4 2 6S 
Masan46 47 358 


关系 型 数据 库 的 联结 要 比 MapReduce 容易 得 多 。 关 系 型 引擎 围绕 
高 性 能 联结 经 过 了 多 年 的 研究 和 优化 。 像 索引 这 样 的 特性 就 有 助 于 优 
化 联结 操作 。 此 外 ， 关 系 型 数据 库 的 数据 一 般 存 放 在 同一 台 物 理 服务 
蚀 上 。 关 系 型 数据 库 跨 多 个 服务 器 的 联结 要 复杂 得 多 ， 但 是 不 太 常 
见 。MapReduce 里 的 联结 意味 着 跨 多 台 服 务 器 的 联结 。 但 是 MapReduce 
框架 里 的 联结 比 天 系 型 数据 库 跨 多 台 服 务 器 要 容易 一 些 。 联 结 类 型 有 
许多 种 变化 ， 但 是 联结 实现 要 么 是 map 侧 (map-side) ， 要 么 是 reduce 
侧 (reduce-side) 。 这 种 map 侧 或 者 reduce 侧 的 划分 是 基于 两 个 数据 集 
记录 联结 执行 的 位 置 来 确定 的 。reduce 侧 联结 更 容易 实现 ， 所 以 更 为 常 
见 。 我 们 先 讨 论 这 种 类 型 。 

1，reduce 侧 联结 

reduce 侧 联结 利用 了 中 间 洗 牌 阶段 ， 把 两 个 数据 集 的 相关 记录 并 列 
放置 到 了 一 起 。 这 个 思路 是 对 两 个 数据 集 做 map 计算 ， 输 出 以 联结 键 
为 键 的 键 值 对 。 放 置 在 一 起 后 ， reducer 可 以 处 理 值 的 所 有 组 合 。 让 我 
们 来 编写 这 个 算法 。 

给 定 示 例 数据 ， 使 用 TimeSpent 数 据 的 map 任 务 的 伪 代 码 如 下 : 


map timespent (line num, line): 
userid, timespent = split (line) 


record = {"TimeSpent" : timespent, 生成 复合 记录 作为 V2 输出 在 MapReduce 
"type" : "TimeSpent")} 作业 里 很 常见 


emit (userid, record) 

map 任 务 从 k1 输 入 行 中 取出 UserID 和 TimeSpent 值 。 然 后 构建 一 个 
包含 type 和 TimeSpent 属 性 的 字典 。 生 成 [UserID:dictionary] 作 为 [k2,v2] 
输出 。 

使 用 Users 数 据 的 map 任 务 也 是 类 似 的 。 唯 一 的 不 同 是 去 掉 一 些 无 


天 字段 ; 

map_users(line num, line): 
userid, name, email, twitcount = split (line) 
record = {"TwitCount" : twitcount, 


没有 共 上 上 | 
"type" : "TwitCount"} | 没有 带 上 name 和 email 


emit (userid, record) 


两 个 map 任 务 都 使 用 UserID 作 为 k2 的 值 。 这 使 得 Hadoop 把 同一 用 户 
的 所 有 记录 归 组 在 一 起 。reduce 任 务 就 有 了 完成 联结 所 需要 的 所 有 内 


reduce (userid, records): 
timespent recs = [] 
twitcount recs = [] 


for rec in records: 


if rec.type == "TimeSpent": Ee 
rec.del ("type") 按照 type 
timespent_ recs.push (rec) < 分 组 分 好 组 后 , 不 再 需要 
else: type 导入 
rec.del ("type") 


twitcount recs.push (rec) 


for timespent in timespent recs: 


for twitcount in twitcount recs: | | 生成 用 户 名 种 可 能 twitcount 
emit (userid, merge (timespent, twitcount)) 和 timespent 的 组 合 ， 对 于 本 
-LL 口 ， 


例 ， 应 该 只 有 一 个 组 合 值 
reduce 任 务 把 所 有 相同 类 型 的 记录 归 组 在 一 起 ， 生 成 两 种 类 型 的 所 
有 可 能 组 合作 为 k3 输 出 。 束 这 个 例 了 于 而 言 ， 每 种 类 型 只 有 一 条 记录 ， 
因此 可 以 人 简化 计算 逻辑 。 你 也 可 以 在 任务 中 直接 生成 你 想 计 算 的 比 
例 : 


reduce (userid, records): 
for rec in records: 
rec.del ("type") 
merge (records) 
emit (userid, ratio(lrec["TimeSpent"], rec["TwitCount"])) 


这 个 改进 过 的 新 reduce 任 务 生 成 的 新 联结 数据 集 如 下 : 


UserID Eatle 


Yvonn66 30s:48 
Mario23 23556 
Rober4 6S :2 
Masan46 35s:47 
这 就 是 最 基本 的 reduce 侧 联结 。reduce 侧 联结 的 一 个 大 问题 是 它 需 
要 洗 牌 和 排序 所 有 的 [k2,v2] 键 值 对 。 对 我 们 的 测试 例子 来 说 ， 这 不 是 
大 问题 。 但 是 如 果 数 据 集 非 常 非常 大 ， 每 个 k2 什 有数 百 万 键 什 对答 
出 ， 这 个 阶段 的 开销 可 能 是 巨大 的 。 
reduce 侧 联 结 需 要 在 map 和 reduce 任务 之 间 对 数据 进行 洗 牌 和 排 
序 。 这 会 带 来 IO 开销 ， 尤 其 是 网 络 IO， 而 这 恰恰 是 分 布 式 系统 最 湾 弱 
的 环节 。 最 小 化 网 络 IO 会 改善 联结 性 能 。 这 正 是 需要 map 侧 联结 的 地 
方 。 
2. map 侧 联结 
map 侧 联 结 这 种 技术 不 像 reduce 侧 联 结 那 样 普遍 适用 。 其 前 提 条 
件 是 ，map 任务 可 以 从 一 个 数据 集 随机 查找 值 ， 同 时 它们 可 以 裔 历 男 
一 个 数据 集 。 如 果 你 想 联结 两 个 数据 集 ， 其 中 至 少 一 个 可 以 加 载 到 
map 任务 的 内 存 ， 那 么 问题 惑 可 以 解决 了 : 加 载 较 小 的 数据 集 到 内 在 
中 的 散 列表 ，map 任务 在 过 历 另 一 个 数据 集 时 可 以 访问 第 一 个 。 这 种 
情况 下 ， 你 可 以 完全 跳 开 洗 牌 阶段 和 排序 阶段 ， 从 Map 阶 段 直 接 输 出 最 
终结 末 。 让 我 们 回 到 同一 个 例子 上 。 这 次 你 把 Users 数 据 集 加 载 到 内 
存 。 新 的 map_timespent 任 务 如 下 所 示 : 


map _ timespent (line num, line): 
users recs = read timespent ("/path/to/users.csv'") 
userid, timespent = split (line) 


record = {"TimeSpent" : timespent} 
record = merge (record, users recs [userid]) 
emit (userid, ratiol(recordl["TimeSpent"], record["TwitCount"])) 


和 上 一 版 本 相 比 ， 这 像 是 作 浆 ! 但 是 请 记 住 ， 只 有 当 一 个 数据 集 
可 以 完全 装 进 内 存 时 你 才能 使 用 这 种 方法 。 本 例 中 联结 要 快 得 多 。 

使 用 这 种 联结 当然 有 隐 含 条 件 。 假 设 ， 每 个 map 任 务 处 理 一 个 数据 
切片 ， 也 就 是 一 个 HDFS 数 据 块 (一 般 64 MB~128 MB) ， 但 是 加 载 进 
内 存 的 联结 数据 集 是 1 GB。 当 然 1GB 可 以 放 进 内 存 ， 但 是 为 每 128 MB 
的 联结 数据 生成 一 个 1 GB 数据 集 的 散 列 表 不 是 明智 的 做 法 。 

3. 使 用 HBase 的 map 侧 联结 

在 什么 地 方 用 到 HBase 呢 ? 我 们 最 初 把 HBase 描述 为 一 个 巨大 的 
散 列 表 ， 还 记得 吗 ? 回顾 一 下 map 侧 联结 的 实现 ， 把 users_recs 用 HBase 
中 的 Users 表 代替 。 现 在 你 可 以 联结 巨大 的 Users 表 和 巨大 的 TimeSpent 
数据 集 了 。 使 用 HBase 的 map 侧 联结 如 下 : 


map _ timespent (line num, line): 
users table = HBase.connect ("Users") 
userid, timespent = split (line) 


record = {"TimeSpent" : timespent)} 
record = merge (record, users table.get (userid, "info:twitcount")) 
emit (userid, ratiol(record["TimeSpent"], recordl["info:twitcount"])) 


把 Users 表 看 做 每 个 map 任 务 可 以 访问 的 一 个 外 部 的 散 列 表 。 你 不 
必 为 每 个 任务 都 创建 散 列表 对 象 。 也 避免 了 在 reduce 侧 联结 必需 的 洗 
牌 阶段 涉及 的 所 有 网 络 IO0。 概 念 示意 如 图 3-14 所 示 。 


| HBase - 
| 

' | [ [ [ [ [ [ | [| n r 一 由 RegionServer 提 供 服务 的 region 
RegionServer RegionServer RegionServer 

map 任 务 从 HDFS 上 读 取 文件 作为 数 


一 -一 据 源 ， 并 且 在 HBase 上 执行 随机 的 
Get 或 者 短 Scan 


DataNode DataNode 


DataNode 


图 3-14 使 用 HBase 存 储 查 找 表 ， 供 map 任 务 用 于 执行 map 侧 联结 
除了 本 市 所 讨论 的 ， 还 有 很 多 种 分 布 式 联结 。 它 们 很 常用 ， 所 以 
Hadoop 提 供 了 一 个 叫做 hadoop-datajoin 的 contrib JAR 来 简化 使 用 联 
结 。 你 已 经 掌握 了 使 用 HBase 足 够 的 背景 知识 ， 也 可 以 利用 HBase 来 优 
化 其 他 MapReduce 应 用 。 


3.5 信息 汇总 


现在 你 领略 了 Hadoop MapReduce 的 全 部 能 力 。JobTracker 按照 最 
优 欣 源 利用 原则 分 配 计算 工作 给 集群 里 的 所 有 TaskTracker。 如 有 果 某 个 
节点 失败 ， 另 一 个 下 点 会 参与 进来 ， 接 管 计 算 任 务 并 保证 作业 成 功 执 
行 。 

此 等 运算 

HadoopMapReduce 假 定 你 的 map 和 reduce 任 务 是 第 等 的 。 意 思 是 
map 和 和 reduce 任 务 在 相同 输入 数据 上 执行 任意 次 数 可 以 得 到 相同 输出 结 
果 。 这 让 MapReduce 在 执行 作业 时 提供 容错 能 力 ， 也 可 以 最 大 限度 地 利 
用 集群 处 理 能 力 。 但 是 执行 有 状态 操作 时 你 必须 特别 小 心 。HBase 的 
Increment 命 令 就 是 这 种 有 状态 操作 的 例子 。 

例如 ， 假 设 你 实现 一 个 计算 行 数 的 MapReduce 人 作业， 该 作业 在 表 中 
每 读 一 个 键 ， 递 增 一 个 单元 值 。 运 行 作 业 时 ，JobTracker 分 配 100 个 


mapper， 每 个 负责 1000 行 。 作 业 运 行 过 程 中 ， 一 个 TaskTracker 帮 点 便 
盘 出 现 故 障 ， 导 至 map 任务 失败 ，Hadoop 把 任务 指派 给 男 一 个 节点 。 
失败 之 前 ， 已 经 数 了 750 行 ， 做 了 相应 递增 。 新 市 点 接管 任务 后 ， 从 
头 开 始 运行 。 那 750 行 束 被 数 了 两 遍 。 

所 以 不 要 在 mapper 里 递增 计数 絮 ， 更 好 的 办 法 是 每 个 mapper 发 出 
["count",1] 键 值 对 。 失 败 的 任务 重启 后 ， 它 们 的 输出 不 会 重复 计算 。 在 
reducer 里 加 总 键 值 对 ， 在 那里 写 出 一 个 值 。 这 也 可 以 避免 递增 单元 所 
在 的 机 器 承受 过 高 负担 。 

另外 一 个 值得 注意 的 事情 是 推测 执行 (speculative execution) 。 当 
某 个 任务 执行 得 特别 慢 并 且 集 群 有 足够 资源 时 ，Hadoop 会 安排 额外 的 
任务 副本 让 它们 竞争 。 任 何 一 个 副本 任务 完成 后 ，Hadoop 杀 擅 其 他 的 
副本 。 这 个 特性 可 以 通过 Hadoop 配 置 启 用 /禁用 ， 如 果 MapReduce 作 业 
需要 访问 HBase 请 禁用 它 。 

本 节 提 供 了 一 个 完整 的 从 MapReduce 应 用 使 用 HBase 的 例子 。 请 记 
住 ， 在 HBase 上 运行 MapReduce 作业 会 给 集群 素来 严重 的 负担 。 请 不 
要 在 提供 低 延 迟 查 询 服务 的 同一 集群 上 运行 MapReduce 作 业 ， 至 少 当 需 
要 维持 OLTP 类 型 的 服务 水 平 协议 (SLA) 时 不 要 运行 ! 否则 当 运 行 
MapReduce 作 业 时 在 线 服务 会 大 受 影 响 。 甚 至 可 以 考虑 : 在 HBase 集 群 
里 根本 就 不 运行 JobTracker 或 TaskTracker。 除 非 你 绝对 需要 ， 否 则 请 
把 资源 留 给 HBase 的 进程 使 用 。 


3.5.1 编写 MapReduce 应 用 


HBase 运 行 在 Hadoop 上 ， 尤 其 是 在 HDFS 上 。 在 HDFS 里 ，HBase 的 
数据 束 像 其 他 数据 一 样 分 区 和 建立 副本 。 这 意味 着 在 HBase 中 存储 的 数 
据 上 运行 MapReduce 应 用 和 香 规 MapReduce 应 用 一 样 。 这 束 是 
MapReduce 计算 例 季 和 多 线程 例子 执行 同样 的 HBase 扫 描 命令 但 是 吞吐 
量 却 高 得 多 的 原因 。MapReduce 计 算 方 式 中 ， 扫 摘 是 在 多 个 和 点 上 并 行 


执行 的 。 这 消除 了 所 有 数据 汇总 到 一 台 机 器 的 瓶 贷 。 如 果 你 在 运行 
HBase 的 集群 上 运行 MapReduce， 请 充分 利用 任何 可 能 的 并 行 放置 。 莎 
士 比 亚 作 品 的 计数 例子 完整 代码 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 莎士比亚 作品 的 计数 示例 


package HBaselIA.TwitBase.mapreduce; 


Fo 
| 省略 导入 细节 


public class CountShakespeare { 


public static class Map 
extends TableMapper<Text, LongWritable> { 


public static enum Counters {ROWS, SHAKESPEAREAN}; 


private boolean containsShakespeare (String msg) { 


We a 
} 这 里 是 自然 语言 处 理 
逻辑 


@Override 
protected void map 人 
ImmutableBytesWritable rowkey, 
Result result, 
Context context) { 
byte [] b = result .getColumnLatest( 
TwitsDAO.TWITS FAM, 


TwitsDAO.TWIT COL) .getValue () ; 


String msg = Bytes.tostring(b); Counters 是 一 
if (msg != null && !msg.isEmpty()) 种 在 Hadoop 作业 
context .getCounter (Counters .ROWS) .increment (1) ; 里 收集 监控 指标 
IT 日 4 仆 


if (containsShakespeare (msg) ) 
的 简单 的 方法 
context .getCounter (Counters .SHAKESPEAREAN) .increment (1) ; ” 


} 
} 


public static void main(String[] args) throws Exception { 
Configuration conf = HBaseConfiguration.create(); 
Job job = new Jobl(conf, "TwitBase Shakespeare counter"); 
job.setJarByClass (CountShakespeare.class); 


Scan Scan = new Scan(); 
scan.addColumn (TwitsDAO.TWITS FAM, TwitsDAO.TWIT COL); 
TableMapReduceUtil.initTableMapperJob( me 
Bytes.toSstring (TwitsDAO.TABLE NAME), 就 像 在 多 线程 例 
scan, 子 里 执行 的 扫描 
Map.class, 
ImmutableBytesWritable.class, 
Result .class, 
job); 


job.setOutputFormatClass (NullOutputFormat .class); 
job.setNumReduceTasks (0) ; 
System.exit (job.waitForCompletion(true) ? 0 : 1); 


CountShakespeare 相 当 简 单 ， 它 包括 一 个 Mapper 实 现 和 一 个 main 方 
法 。 它 还 利用 了 HBase 特 有 的 MapReduce 辅 助 类 TableMapper 和 
TableMapReduceUtil 实 用 类 ， 我 们 本 章 前 面 介 绍 过 它们 。 也 请 注意 ， 这 
里 没有 reducer。 这 个 例子 不 需要 在 Reduce 阶 段 执行 额外 的 计算 。 相 
反 ， 通 过 作业 计数 姻 收 集 map 输 出 即 可 。 


3.5.2 运行 MapReduce 应 用 


你 想 看 看 运行 MapReduce 作 业 是 什么 样子 吗 ? 我 们 也 是 。 先 往 
TwitBase 里 面 加 载 一 些 数 据 。 下 面 两 个 命令 加 载 100 个 用 户 ， 并 且 为 每 
个 用 户 加 载 100 条 推 帖 : 


19:56:42 INEO mapred.JobClient: 
19:56:43 INFO mapred.JobClient: 


ll 
E93 
是 下 这 
19: 
Ls 
二 全 


56 
56 
56 
56 
56 
56 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.LoadUsers 100 

$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.LoadTwits 100 


现在 有 了 一 些 数 据 ， 你 可 以 运行 CountShakespeare 应 用 : 


$ java -cp target/twitbase-1.0.0.jar \ 


:46 
:46 
:46 
:46 
:46 
:46 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


mapred. 
mapred. 
mapred. 
mapred. 
mapred. 
mapred. 


JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 
JobClient: 


HBaseIA.TwitBase.mapreduce.CountShakespeare 


Running job: job local 0001 
map 0% reduce 0% 


map 100% reduce 0% 

Job complete: job local 0001 

Counters: 11 

CountSshakespearesMap$Counters 
ROWS=9695 
SHAKESPEAREAN=4743 


按照 我 们 的 水 士 比 亚 作品 引用 分 析 专 有 算法 ， 将 近 50% 的 数据 影射 


到 沙 士 比 亚 ! 使 用 计数 器 很 有 趣 ， 如 采写 回 到 HBase 如 何 呢 ? 我 们 开发 
了 类 似 的 算法 专门 检查 对 哈姆雷特 的 引用 。Mapper 和 水 士 比 亚 作 品 例 


子 相似 ， 只 是 [k2,v2] 输 出 数据 类 型 是 [Immutable BytesWritable,Put] 


它们 是 HBase 行 键 和 上 一 章 学 习 的 Put 命令 的 实例 。reducer 代 码 如 下 : 


public static class Reduce 
extends TableReducer< 
ImmutableBytesWritable, 
Put, 
ImmutableBytesWritable> { 


@Override 
protected void reducel( 
ImmutableBytesWritable rowkey, 
Iterable<Put> values, 
Context context) { 
Iterator<Put> i = values.iterator(),; 
if (i.hasNext ()) { 
context .write(rowkey, i.next()); 


} 
} 
} 


束 这 些 。reducer 实 现 接收 [k2,{v2H] 、 行 键 和 Put 列 表 作 为 输入 。 本 
例 中 ， 每 个 Put 设 置 info:hamlet_tag 列 为 tue。 针 对 每 个 用 户 只 执行 一 次 
Put， 因 此 只 有 第 一 个 发 出 到 输出 上 下 文 对 象 。 生 成 的 [k3,v3] 键 值 对 类 
型 也 是 [Immutable BytesWritable,Put]。 让 Hadoop 系 统 处 理 Put 的 执行 ， 
保证 reduce 实 现 害 等 特性 。 


3.6 大 规模 条 件 下 的 可 用 性 和 可 靠 性 


在 分 布 式 系统 语 境 下 ， 你 经 常会 听 到 术语 可 扩展 的 《scalable) 、 
可 用 的 (available) 和 可 靠 的 (reliable) 。 我 们 认为 ， 这 些 术语 不 代表 
绝对 的 、 明 确 的 系统 品质 ， 而 和 是 一 组 可 以 有 不 同 值 的 参量 。 换 句 话 
说 ， 不 同系 统 、 不 同 大 小 规模 ， 某 些 情 况 下 是 可 用 的 和 可 靠 的 ， 但 其 


他 情况 下 就 不 是 。 这 些 特性 是 系统 架构 选择 的 需要 。 这 将 我 们 带 进 
CAP 定 理 此 的 范畴 ， 这 总 是 带 来 一 次 有 趣 的 讨论 和 有 吸引 力 的 阅读 
[3 。 不 同 的 人 有 不 同 的 看 法 氏 ! ， 我 们 不 去 对 各 种 数据 库 系 统 CAP 定 
理 是 什么 含义 纠缠 细节 和 进行 学 术 研 究 。 让 我 们 跳 到 在 HBase 语 境 中 可 
用 性 (availability) 和 可 靠 性 (reliability) 是 什么 含义 和 如 何 实现 它们 
的 主题 上 。 这 些 特性 从 构建 应 用 系统 角度 来 看 是 有 用 的 ， 对 于 应 用 开 
发 人 员 ， 可 以 帮助 你 理解 采用 HBase 做 后 端 数 据 存储 时 你 可 以 期 竺 什么 
以 及 如 何 影 响 SLA 的 。 

1. 可 用 性 

HBase 语 境 中 可 用 性 定义 为 系统 处 理 故 障 的 能 力 。 最 常见 的 故障 
会 导致 HBase 集群 里 一 个 或 几 个 节点 脱离 集群 和 停止 服务 请 求 。 这 可 
能 是 因为 站 点 出 现 硬件 故障 或 者 由 于 某 种 原因 软件 功能 失常 。 任 何 这 
种 故 隐 都 可 以 认为 是 那个 节点 和 集群 其 他 部 分 的 网 络 隅 离 。 

当 RegionServer 由 于 某 种 原因 不 能 联络 时 ， 它 所 服务 的 数据 会 切换 
到 其 他 RegionServer。HBase 能 够 这 样 做 ， 从 而 保持 高 可 用 性 。 但 是 如 
果 发 生 网络 隔 离 ， 并 且 HBase master 脱离 了 集群 或 者 ZooKeeper 脱 离 了 
集群 ， 工 作 节 点 就 不 能 工作 了 。 回 到 我 们 之 前 所 说 的 : 可 用 性 最 好 用 
系统 可 以 处 理 的 故障 种 类 和 不 能 处 理 的 故障 种 类 来 定义 。 它 不 是 一 个 
二 元 特性 ， 而 是 有 不 同 程度 的 特性 。 

高 可 用 性 可 以 通过 预防 性 部 署 体系 来 实现 。 例 如 ， 如 果 你 有 多 个 
master， 把 它们 放 在 不 同 机 架 里 。 第 10 章 将 详细 讨论 HBase 部 署 。 

2. 可 靠 性 和 持久 性 

可 菲 性 是 数据 库 语 境 中 通用 的 术语 ， 大 多 数 情 况 下 可 以 认为 是 数 
据 持 久 性 和 性 能 你 证 的 结合 。 本 市 的 目标 是 检查 HBase 的 数据 持久 性 方 
面 。 可 以 想象 ， 当 你 在 数据 库 上 搭建 应 用 系统 时 数据 持久 性 非常 重 
要 。 设 备 /devnull 写 性 能 倒是 最 快 ， 但 是 一 旦 你 写 到 /devnul， 数 据 就 


没有 了 。 另 一 方面 ， 凭 借 系统 架构 的 特点 HBase 在 数据 持久 性 方面 有 
必然 的 保证 。 


3.6.1 HDFS 作为 底层 存储 


底层 存储 的 两 个 特性 可 以 帮助 HBase 实 现 提供 给 客户 端的 可 用 性 和 
可 靠 性 。 

1. 单一 命名 空间 

HBase 把 数据 存储 在 一 个 文件 系统 上 。 所 有 RegionServer 可 以 访问 
禾 盖 整个 集群 的 文件 系统 。 文 件 系 统 为 集群 里 所 有 RegionServer 提 供 单 

一 命名 空间 。 一 个 RegionServer 读 写 的 数据 可 以 为 其 他 所 有 

RegionServer 读 写 。 这 让 HBase 满足 可 用 性 保证 。 如 果 一 个 
RegionServer 宕 机 ， 任 何其 他 RegionServer 都 可 以 从 底层 文件 系统 读 取 
数据 ， 接 管 第 一 个 RegionServer 服 务 的 region ( 见 图 3-15) 。 


人 灾难 袭击 了 为 region R1 
多 提供 服务 的 主机 


( 雪 )) 
物理 主机 


RegionServer 


物理 主机 


RegionServer 


物理 主机 


RegionServer 


RegionServer 
Serving Region RI1 


让 


HFilel 


DataNode 


另 一 台 主 机 接管 该 region， 基 于 保存 在 
HDFS 里 的 HFile 开 始 提供 服务 。 丢 失 的 
HFile 副 本 将 复制 到 另 一 个 DataNode 上 。 


物理 主机 


物理 主机 


RegionServer 
Serving Region RI1 


DataNode 


DataNode 


图 3-15 如 果 由 于 某 种 原因 RegionServer 出 现 故 障 (例如 ，Java 进 程 
死 了 或 者 整个 物理 节点 起 火 了 ) ， 男 一 个 RegionServer 将 接管 第 一 个 
RegionServer 所 服务 的 region 并 开始 为 它们 服务 。HDFS 对 所 有 
RegionServer 提 供 单一 命名 空间 ， 任 何 RegionServer 都 可 以 访问 其 他 
RegionServer 存 放 的 文件 ， 所 以 文 持 上 述 做 法 

这 一 点 可 以 想象 成 ， 你 有 一 个 网 络 连接 存储 (NAS) ， 存 储 数 据 
并 且 挂 在 所 有 服务 右上 。 这 在 理论 上 是 可 行 的 ， 但 在 设计 与 实现 上 不 
太 现 实 。 所 有 服务 器 读 写 一 个 NAS 意 味 着 硬盘 IO 会 被 集群 和 NAS 之 间 


的 连接 所 阻 蹇 。 你 可 以 使 用 更 宽 的 连接 ， 但 它们 仍然 会 限制 你 的 规 

模 。HBase 在 设计 上 选择 了 分 布 式 文 件 系 统 ， 紧 密 绪 合 HDFS。HDFS 
为 HBase 提 供 了 单一 命名 空间 ， 大 多 数 集 群 里 DataNode 和 RegionServer 
放置 在 同一 台 机 器 上 。 这 有 利于 RegionServer 读 写本 地 DataNode。 因 此 
尽 可 能 节省 了 网 络 IO。 虽 然 还 会 发 生 网 络 IO， 但 是 这 种 优化 减 小 了 网 

络 开销 。 

对 现在 的 TwitBase 应 用 ， 你 使 用 了 HBase 单 机 模式 。HDFS 不 文 持 
HBase 单 机 模式 。HBase 单 机 模式 把 所 有 数据 写 在 本 地 文件 系统 上 。 人 第 9 
章 将 详细 介绍 HDFS 文 持 的 全 分 布 方式 HBase 部 署 。 

全 分 布 模式 下 ， 你 将 配置 HBase 写 入 HDFS 上 一 个 预先 指定 的 目 
录 ， 这 个 目录 通过 参数 hbase.rootdir 设置 。 单 机 模式 下 ， 这 个 日 录 指 癌 
默认 值 fle:///tmp/HBase-${user.name}/hbase 。 

2. 可 靠 性 和 抗 故 障 能 力 

HBase 假 定 存 放 在 的 层 存 储 系 统 上 的 数据 即使 在 发 生 故 障 时 也 可 以 
访问 。 如 采 运 行 RegionServer 的 服务 右 宕 机 ， 其 他 RegionServer 应 该 可 
以 接 过 分 配给 那个 RegionServer 的 region 并 且 提 供 服 务 。 前 提 是 服务 器 
宕 机 不 会 导致 的 层 存 储 上 的 数据 丢失 。 像 HDFS 这 样 的 分 布 式 文件 系统 
通过 复制 数据 和 保存 多 个 副本 来 实现 这 一 点 。 同 时 ， 小 比例 服务 器 的 
宕 机 不 应 该 严重 影响 底层 存储 的 性 能 。 

理论 上 ，HBase 可 以 运行 在 任何 提供 这 种 特性 的 文件 系统 上 。 但 是 
HBase 在 其 发 展 过 程 中 一 直上 紧密 结合 HDFS。 除 了 抗 故障 能 力 ，HDFS 
提供 了 某 些 写 的 语义 ，HBase 用 来 为 你 写 入 的 每 个 字 届 你 证 持久 性 。 


3.7 小 结 


本 章 我 们 介绍 了 相当 多 的 基础 知识 ， 其 中 许多 是 初级 水 平 。 
Hadoop 还 有 很 多 知识 ， 我 们 不 能 在 一 章 里 都 履 盖 到 。 你 现在 应 该 基本 


了 解 Hadoop， 以 及 HBase 如 何 使 用 Hadoop。 实 践 中 ， 与 Hadoop 的 这 种 
密切 联系 给 HBase 部 署 市 来 了 许多 好 处 。 下 面 回顾 一 下 我 们 讨论 过 的 内 
容 o 

HBase 是 一 种 搭建 在 Hadoop 上 的 数据 库 。 它 依靠 Hadoop 来 实现 数 
据 访 问 和 数据 可 徘 性 。HBase 是 一 种 以 低 延 迟 为 目标 的 在 线 系统 ， 而 
Hadoop 是 一 种 为 否 吐 量 优化 的 离线 系统 。 这 种 互补 天 系 造 束 了 一 种 强 
大 的 、 灵 活 的 数据 平台 ， 可 以 用 来 搭建 水 平 扩展 的 数据 应 用 。 

Hadoop MapReduce 是 一 种 分 布 式 计算 框架 。 它 是 一 种 容错 的 、 面 
向 批 处 理 的 计算 模型 。MapReduce 程 序 是 由 map 和 reduce 运 算 组 成 的 作 
业 。 单 个 任务 的 前 提 是 满足 展 等 性 (idempotent) 。MapReduce 使 用 
HDFS 来 把 任务 分 配 到 文件 系统 上 的 数据 块 和 移动 计算 到 数据 

(distributing the computation to the data) 。 这 实现 了 极 小 分 配 开 销 的 高 
度 并 行 化 计算 程序 。 

HBase 设 计 上 支持 MapReduce 访 问 。 它 提供 了 TableMapper 和 和 
TableReducer 来 答 化 MapReduce 应 用 的 实现 : TableMapper 人 允许 
MapReduce 应 用 从 HBase 里 轻松 读 取 数据 ，TableReducer 允许 从 
MapReduce 轻松 把 数据 写 回 到 HBase。 在 Map 和 Reduce 阶 段 合用 
HBase 键 值 API 访 问 也 是 可 能 的 。 在 所 有 任务 需要 随机 访问 相同 数据 的 
情况 下 是 很 有 帮助 的 。 通 常 利 用 这 个 特点 来 实现 分 布 式 Map 侧 联结 。 

如 采 你 很 好 奇 ， 硕 望 学 习 更 多 关于 Hadoop 如 何 工作 或 者 研究 
MapReduce 的 其 他 技术 ，Tom White 编写 的 《Hadoop 权 威 指南 》 

(O’Reilly, 2009) 和 Chuck Lam 编 写 的 《Hadoop 实 战 》 (Manning, 
2010) 是 最 好 的 两 本 参考 书 。 
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介绍 完 基础 部 分 以 后 ， 第 二 部 分 将 研究 更 多 高 级 主题 。 第 4 章 将 详 
细 介 绍 HBase 模 式 (schema) 设计 。 这 一 章 将 继续 扩展 第 2 章 建立 的 示 
例 应 用 ， 深 入 剖析 在 HBase 中 如 何 为 你 的 应 用 系统 进行 数据 建 模 。 这 
一 章 将 帮助 你 理解 如 何 对 模式 设计 的 选择 做 出 取舍 。 第 5 章 将 介绍 如 
何 建立 和 使 用 协 处 理 器 (coprocessor) ， 这 是 在 HBase 集 群 中 植 入 计算 
逻辑 ， 使 计算 接近 存储 数据 的 一 种 高 级 技巧 。 第 6 章 介绍 如 何 使 用 其 他 
基于 或 者 不 是 基于 JVM 的 客户 端 库 访 问 HBase。 掌 握 第 二 部 分 内 容 
后 ， 你 将 可 以 在 你 的 应 用 系统 中 有 效 地 使 用 HBase， 也 可 以 基于 HBase 
搭建 非 Java 应 用 系统 。 


第 4 章 HBase 表 设 计 


本 章 涵盖 的 内 容 

四 HBase 模 式 设计 概念 

加 把 关系 型 建 模 知识 映射 到 HBase 世 界 

晶 表 定义 高 级 参数 

加 使 用 HBase 过 滤 絮 优化 读 性 能 

在 前 3 草 中 ， 你 使 用 JavaAPI 访 问 HBase， 并 且 搭 建 了 一 个 示例 应 用 
来 学 习 如 何 运 用 它们 。 作 为 搭建 应 用 系统 TwitBase 的 一 部 分 ， 你 在 
HBase 中 创建 了 表 来 存储 数据 。 我 们 给 你 提供 了 表 定 义 ， 并 没有 多 加 
思索 为 什么 如 此 创建 它 。 换 句 话 说， 我 们 没有 讨论 需要 多 少 个 列 族 ， 


一 个 列 族 需 要 多 少 列 ， 什 么 数据 应 当 存 入 列 名 中 ， 以 及 什么 数据 应 当 
存 入 单元 ， 等 等 。 本 章 介 绍 HBase 模式 (schema) 设计 ， 将 讨论 在 
HBase 中 设计 模式 和 行 键 时 应 该 考虑 的 东西 。HBase 的 模式 不 同 于 天 系 
型 数据 库 的 模式 。HBase 要 简单 得 多 ， 需 要 考虑 的 不 多 。 有 时 我 们 也 把 
HBase 称 为 无 模式 数据 库 。 但 是 为 了 对 应 用 系统 的 访问 模式 进行 性 能 优 
化 ， 模 式 的 简单 也 赋予 你 更 多 调整 的 空间 。 有 一 些 模 式 写 性 能 很 棱 ， 
但 是 当 读 取 同 样 数 据 时 表现 却 不 好 ， 或 者 正好 相反 。 

为 了 学 习 设 计 HBase 模式 ， 这 里 将 继续 使 用 TwitBase 应 用 系统 ， 
并 引入 新 功能 。 到 目前 为 止 ，TwitBase 的 功能 还 相当 简单 。 现 在 只 有 用 
户 和 推 帖 功能 ， 对 于 一 个 应 用 系统 来 说 这 些 还 不 够 ， 除 非 能 够 促进 社 
交 化 互动 和 能 够 阅读 别人 的 推 帖 ， 否 则 是 不 会 产生 用 户 流 量 的 。 考 虑 
到 用 户 希 望 能 够 天 注 其 他 用 户 ， 所 以 让 我 们 为 此 创建 一 些 表 。 

注意 本 章 继续 沿用 本 书 一 直 使 用 的 方法 ， 通 过 运行 一 个 例子 来 介 
绍 和 解释 概念 。 你 将 从 一 个 简单 的 模式 设计 开始 ， 不 断 改 善 它 ， 同 时 
我 们 会 介绍 相关 的 重要 概念 。 


4.1 如 何 开 始 模式 设计 


你 可 以 想到 ，TwitBase 中 用 户 和 希望 天 注 其 他 用 户 的 推 帖 。 为 了 实现 
这 个 功能 ， 第 一 步 是 维护 一 个 特定 用 户 的 关注 对 象 列表 。 例 如 ， 
TheFakeMT 关注 了 TheRealMT 和 HRogers。 为 了 得 到 TheFakeMT 应 该 
看 到 的 所 有 推 帖 ， 你 需要 先 碍 找 列表 {TheRealMT, HRogers}， 然 后 读 出 
列表 中 每 个 用 户 的 推 帖 。 这 个 信息 需要 存放 在 HBase 表 中 。 

让 我 们 思考 一 下 这 个 表 的 模式 。 当 我 们 说 到 模式 (schema) ， 请 
考虑 下 面 这 些 内 容 : 

加 这 个 表 应 该 有 多 少 个 列 族 ? 

晶 列 族 使 用 什么 数据 ? 


每 个 列 族 应 该 有 多 少 列 ? 

晶 列 名 应 该 是 什么 ? 尽管 列 名 不 必 在 建 表 时 定义 ， 但 是 读 写 数据 时 
征 需要 知道 的 。 

加 单元 存放 什么 数据 ? 

旧 每 个 单元 存储 多 少 个 时 间 版 本 ? 

@ 行 刍 结构 是 什么 ? 应 该 包括 什么 信息 ? 

有 人 可 能 会 争辩 说 ， 模 式 只 需要 考虑 在 建 表 时 预先 定义 的 东西 ， 
还 有 人 会 说 ， 这 里 所 到 的 所 有 东西 也 只 不 过 是 模式 设计 的 一 部 分 。 这 
些 都 是 值得 参与 的 讨论 。NoSQL 是 个 相当 新 的 领域 ， 术 语 的 准确 定义 
正在 形成 中 。 但 是 我 们 认为 ， 因 为 模式 影响 到 表 结 构 和 如 何 读 写 表 ， 
把 所 有 这 些 东 西 放 进 宽泛 的 模式 设计 是 很 重要 的 。 这 也 是 下 面 要 做 的 
事情 


4.1.1 问题 建 模 

让 我 们 回 到 这 张 表 ， 这 里 需要 存储 一 个 特定 用 户 关 注 什么 用 户 的 
数据 。 这 张 表 有 两 种 访问 模式 : 读 出 全 部 用 户 列表 和 得 询 某 指定 用 户 
是 否 在 列表 里 。“TheFakeMT 关注 TheRealMT 了 吗 ? ”假设 TheFakeMT 
想 知 道 TheRealMT 的 一 切 ， 这 是 一 个 有 实质 意义 的 问题 。 这 时 ， 你 的 
兴趣 在 于 确认 TheRealMT 是 否 在 TheFakeMT 的 关注 对 象 列表 里 。 一 个 可 
能 的 方案 是 每 个 用 户 对 应 一 行 ， 以 用 户 ID 作为 行 键 ， 每 列 代表 该 用 户 
天 注 的 人 。 

还 记得 列 族 吗 ? 到 目前 为 止 ， 因 为 没有 更 多 需要 ， 你 只 使 用 了 一 
个 列 族 。 但 是 这 张 表 需要 几 个 列 族 呢 ? TheFakeMT 关注 对 象 列 表 里 的 
所 有 用 户 都 有 可 能 需要 被 确认 是 否 存在 ， 从 访问 模式 看 ， 你 无 法 区 分 
彼此 。 你 不 能 假定 列表 里 的 某 个 用 户 比 其 他 用 户 补 访问 的 可 能 性 更 
大 。 从 这 一 点 可 以 推断 被 天 注 用 户 列 表 应 该 使 用 同一 个 列 族 。 


如 何 得 出 这 个 结论 呢 ? 一 个 特定 列 族 的 所 有 数据 在 HDFS 上 会 有 一 
个 物理 存储 。 这 个 物理 存储 可 能 由 多 个 HFile 组 成 ， 理 想 情况 下 可 以 通 
过 合并 得 到 一 个 HFile。 一 个 列 族 的 所 有 列 在 硬盘 上 存放 在 一 起 ， 使 用 
这 个 特性 可 以 把 不 同 访问 模式 的 列 放 在 不 同 列 族 ， 以 便 隔离 它们 。 这 
也 是 HBase 被 称 为 面向 列 族 的 存储 (column-family-oriented store) 的 原 
因 。 在 打算 创建 的 这 张 表 里 ， 你 不 需要 把 某 个 被 关注 用 户 和 其 他 用 户 
分 开 考 虑 。 至 少 现在 如 此 处 理 是 合理 的 。 为 了 存储 这 些 天 系 ， 创 建 一 
个 名 为 follows 的 新 表 ， 如 图 4-1 所 示 。 


er 


userid 


列 限定 符 : 
被 关注 用 户 编 号 


单元 值 : 被 关注 用 户 ID 
图 4-1 follows 表 ， 存 放 一 个 特定 用 户 的 关注 对 象 列 表 
你 可 以 使 用 第 2 章 学 习 的 Shell] 或 Java 客 户 端 创建 表 。 但 是 先 让 我 们 
深入 思考 一 下 ， 确 定 你 可 以 得 到 最 优 的 表 设 计 。 请 记 住 一 旦 创建 了 


表 ， 改 变 任何 列 族 都 需要 先 让 表 下 线 。 

在 线 迁移 

HBase 0.92 有 一 个 在 线 模 式 迁 移 的 试验 性 功能 ， 就 是 在 改变 列 族 
时 不 必 让 表 下 线 。 我 们 不 推荐 把 这 种 做 法 作为 第 规 实践 。 预 先 设计 好 
你 的 表 将 更 有 帮助 。 

现在 的 表 设 计 如 图 4-1 所 示 ， 一 个 存 有 数据 的 表 如 图 4-2 所 示 。 


单元 值 


列 限定 符 follows 


a 

el el 20m | | 

图 4-2 存 有 样 例 数据 的 follows 表 。1:TheRealMT 代 表 列 族 follows 中 

列 限 定 符 1 对 应 的 单元 ， 其 值 是 TheRealMT 。 假 马克 吐 温 
(TheFakeMT) 想 知 道真 马克 吐 温 (TheRealMT) 的 所 有 事情 ， 所 以 他 
不 仅 关 注 了 真 马 克 吐 温 ， 而 且 关 注 了 他 的 粉丝 、 妻 子 和 朋友 。 不 要 

脸 ， 是 吧 ? 真 马 克 吐 温 就 很 简单 ， 只 想 了 解 他 的 朋友 和 妻子 

现在 你 需要 检验 这 张 表 是 否 满足 你 的 需求 。 为 此 ， 重 要 的 事情 是 
定义 访问 模式 ， 也 束 是 ， 应 用 系统 如 何 访问 HBase 表 里 的 数据 。 理 想 情 
况 下 ， 在 整个 过 程 中 你 应 该 尽早 这 样 做 。 

注意 在 模式 设计 流程 中 尽早 定义 访问 模式 ， 以 便 通 过 它们 检验 你 
的 设计 决定 。 

闲话 少 说 ， 让 我 们 现在 就 试 试 。 为 了 定义 访问 模式 ， 第 一 步 最 好 
定义 你 想 使 用 这 张 表 回答 什么 问题 。 例 如 ， 在 TwitBase 中 ， 你 想 用 这 张 
表 回 答 , “TheFakeMT 关 注 了 谁 ? ” 沿 着 这 个 方向 进一步 思考 ， 你 会 有 
下 面 这 些 问题 。 

(1) TheFakeMT 关 注 了 谁 ? 

(2) TheFakeMT 关 注 TheRealMT 了 吗 ? 

(3) 谁 关 注 了 TheFakeMT? 

(4) TheRealMT 关 注 TheFakeMT 了 吗 ? 

问题 2 和 问题 4 是 相同 的 ， 只 是 名 字 互 换 位 置 。 留 给 你 的 是 前 3 个 问 
题 。 这 是 个 不 错 的 起 点 ! 

“TheFakeMT 关 注 了 谁 ? ”你 可 以 在 刚 创建 的 表 上 执行 一 个 简单 的 
get(0) 调 用 来 回答 这 个 问题 。 该 调用 会 给 你 返回 整个 行 ， 汤 历 整 个 列表 


就 能 找到 TheFakeMT 关注 的 用 户 。 代 码 如 下 所 示 : 
Get g = new Get (Bytes.toBytes ("TheFakeMT"))., 


Result result = folLlowsTable.get(9) ; 

返回 的 result 集 合 可 以 用 来 回答 问题 1 和 问题 2。 返 回 的 整个 列表 给 
出 问题 1 的 答案 。 你 可 以 创建 一 个 数组 列表 ， 如 下 所 示 : 
List<String> followedUsers = new ArrayList<String>(),; 
List<KeyValue> list = result.list(); 
Iterator<KeyValue> iter = list.iterator(); 
while(iter.hasNext ()) { 

KeyValue kv = iter.next (); 

followedUsers.add (Bytes.toSstring (kv.getValue())); 


回答 问题 2 则 需要 遍历 整个 列表 ， 检 查 TheRealMT 是 否 存 在 。 相 
应 的 代码 和 上 一 段 代码 类 似 ， 但 不 再 创建 一 个 数组 列表 ， 而 是 每 一 步 
进行 比较 检查 : 
String followedUser = "TheRealMT"; 
List<KeyValue> list = result.list(),; 
Iterator<KeyValue> iter = list.iterator(); 
while(iter.hasNext ()) { 
KeyValue kv = iter.next(); 
if(followedUser.equals (Bytes.toSstring(kv.getValue()))); 
return true; 


} 


return false; 
不 能 再 简单 了 ， 对 吗 ? 让 我 们 继续 努力 ， 确 保 你 的 表 设 计 是 最 好 
的 ， 且 在 面 对 各 种 预期 的 访问 模式 时 性 能 表现 最 优 。 
4.1.2 而 : : 
现在 你 的 表 设 计 可 以 回答 前 面 列表 里 4 个 问题 中 的 2 个 。 你 不 确定 
是 否 可 以 回答 邑 外 2 个 问题 ， 你 也 没有 定义 表 的 写 模 式 。 到 目前 为 止 的 
4 个 问题 只 是 定义 了 表 的 读 模式 。 


从 TwitBase 角 度 看 ， 可 以 预期 发 生 下 面 事情 时 需要 写 数据 到 
HBase: 

上 晶 一 个 用 户头 注 了 某 人 。 

上 晶 一 个 用 户 取 消 关 注 某 人 。 

让 我 们 看 看 这 张 表 ， 基 于 上 述 写 模式 尽量 找 出 能 够 优化 的 地 方 。 
当 用 户 增 加 一 个 新 关注 时 ， 客 户 端 需要 做 些 处 理 ， 需 要 在 用 户 已 经 关 
注 的 对 象 列 表 里 增加 一 个 对 象 。 当 TheFakeMT 新 关注 一 个 用 户 时 ， 你 


需要 知道 这 个 用 户 是 用 户 列表 里 的 第 5 个 。 如 有 果 不 查询 HBase 表 ， 客 户 
端 代码 并 不 知道 这 个 信息 。 还 有 ， 如 采 不 指定 列 限 定 符 ， 也 没有 办 法 
要 求 HBase 在 已 有 行 上 增加 一 个 单元 。 为 了 解决 这 个 问题 ， 你 必须 在 茶 
个 地 方 维护 一 个 计数 万 。 最 好 的 地 方 是 在 同一 行 中 。 本 例 中 ， 表 的 样 
子 如 图 4-3 所 示 。 


follows 


TheFakeMT | 1:TheRealMT | 2:MTFanBoy 4:HRogers 
| | 酸 二 
图 4-3 follows 表 每 行 有 一 个 计数 器 来 跟 踩 任何 指定 用 户 当 时 所 关注 
的 用 户 数量 
count 列 能 让 你 快速 知道 任何 用 户 所 关注 的 用 户 数量 。 你 可 以 通过 
读 取 count 列 而 不 是 过 历 整 个 列表 来 回答 “TheFakeMT 关 注 了 多 人 少 
人 ? ”。 进 展 不 错 ! 也 请 注意 : 你 不 需要 改变 表 的 定义 。 这 束 是 HBase 
的 无 模式 数据 模型 。 
向 关注 用 户 列 表 中 增加 一 个 新 用 户 需要 几 步 ， 大 致 步 又 如 图 4-4 所 


需要 更 新 的 行 


TheFakeMT | 1:TheRealMT | 2:MTFanBoy 4:HRosers (| count:4 | 
nes es | zoom | om | | | 


TheFakeMT : follows: {count -> 4} 


CD) | 递增 计数 
DR TheFakeMT : follows: {count -> @) 
更 新 计数 器 wy - 
@ 增加 新 条 目 © WN 


@ 把 新 数据 写 入 HBase 
TheFakeMT : follows: {5 -> (Ceransoy?) count -> 


No 
Torker | HrreReaMT | Mirompoy | soma | rkoem {SMrrmpo3] coms | 
me tm | zw | cm? | | | 
图 4-4 基于 当前 的 表 设计 ， 往 关注 用 户 列表 里 增加 新 用 户 所 需要 的 
步 又 
向 关注 用 户 列表 增加 一 个 新 用 户 的 代码 如 下 : 


Get g = new Get (Bytes.toBytes ("TheFakeMT")); 
g.addColumn (Bytes.toBytes ("follows"), 


Bytes.toBytes ("count"),; SE 
Result r = followsTable.get(g); 从 表 里 获 取 当 前 
byte [] count bytes = r.getValue (Bytes.toBytes ("follows"), 计数 


Bytes.toBytes ("count")); 
int count = Bytes.toInteger (Count bytes); 
Count++; 

String newUserFolowed = "MTFanBoy2"; 
Put p = new Put (Bytes.toBytes ("TheFakeMT")).; 
p.add(Bytes.toBytes ("follows"), 


Bytes.toBytes (count), 沁 4 的 3 二 类 3 人 让 
Bytes.toBytes (newUserFollowed) ) ; 递增 计数 并 写 入 
p.add (Bytes.toBytes ("follows"), 4 新 条 目 


Bytes.toBytes ("count"), 
Bytes .toBytes (Count) ) ; 
followsTable.put (p); 4 


如 你 所 看 到 的 ， 保 持 计数 会 让 客户 只 代码 变 得 很 复杂 。 每 次 你 往 A 
的 关注 用 户 列表 里 增加 一 个 用 户 ， 必 须 先 从 HBase 表 里 读 出 计数 ， 增 加 
下 一 个 用 户 ， 更 新 计数 器 。 这 个 过 程 看 起 来 有 点 像 你 可 能 用 过 的 关系 
型 数据 库 里 的 事务 。 

考虑 到 HBase 不 文 持 事务 的 概念 ， 这 个 过 程 会 有 一 些 问 题 。 首 
先 ， 它 不 是 线程 安全 的 。 如 采用 户 使 用 两 个 不 同 的 浏览 器 或 设备 同时 
关注 两 个 不 同 的 用 户 会 出 现 什么 情况 呢 ? 这 种 情况 不 太 稍 见 ， 但 是 邦 
一 种 类 似 的 情况 很 可 能 会 发 生 ， 用 户 对 两 个 不 同 用 户 一 个 搂 一 个 快速 
扩 击 关注 按钮 ， 处 理 请 求 的 两 个 线程 很 可 能 读 回 同一 个 计数 ， 一 个 可 
能 覆盖 另 一 个 的 数据 。 此 外 ， 如 有 果 客 户 端 线程 在 执行 过 程 中 半途 死 了 
二 么 办 呢 ? 你 不 得 不 在 客户 端 代码 里 建立 回 深 或 重复 写 操作 的 逻辑 。 
最 好 避 开 这 样 的 复杂 问题 。 

解决 这 个 问题 而 不 让 客户 端 变 得 复 洒 的 唯一 办 法 是 去 挥 计 数 器 。 
再 重复 一 忆 ， 你 可 以 充分 利用 无 模式 数据 模型 的 特点 。 一 种 办 法 是 把 
极 关 注 用 户 名 字 放 进 列 限定 符 。 记 住 ， HBase 把 一 切 数据 存储 为 字 隐 


数组 (byte[]) ， 你 可 以 在 一 个 列 族 里 拥有 任意 数量 的 列 。 让 我 们 利用 
这 个 特性 来 改变 表 的 设计 ， 如 图 4-5 所 示 。 列 限定 符 将 使 用 被 关注 用 户 
的 用 户 名 ， 而 不 再 是 它们 在 关注 用 户 列 表 里 的 位 置 (position) 。 现 在 
单元 值 可 以 是 任何 内 容 。 因 为 单元 不 能 是 空 的 ， 你 需要 存 点 儿 东 西 ， 
所 以 输入 数字 1。 这 和 关系 型 系统 中 设计 表 有 些 不 同 。 


follows 


| re | ov | | 
图 4-5 现在 单元 使 用 被 关注 用 户 的 用 户 名 作为 列 限 定 符 ， 使 用 任意 
字符 串 作 为 单元 值 


提示 列 限定 符 可 以 按 数据 处 理 ， 束 像 值 。 这 和 关系 型 系统 不 同 ， 
关系 型 系统 的 列 名 是 固定 的 并 且 需 要 在 建 表 时 预先 定义 。 列 在 这 里 可 
能 有 些 用 词 不 当 。HBase 表 实质 上 是 多 维 映射 。 

HBase 模 式 的 简单 和 灵活 允许 你 做 出 这 种 优化 ， 不 需要 做 很 多 工作 
束 可 以 大 大 简化 客户 端 代码 ， 或 者 使 性 能 获得 显 若 提升。 

使 用 这 种 新 的 表 设 计 ， 你 不 再 需要 计数 器 ， 客 户 病 代码 在 列 限 定 
符 里 使 用 被 关注 用 户 ID。 这 个 值 总 是 唯一 的 ， 所 以 你 不 会 遇 到 已 有 信 
轧 被 覆 交 的 问题 。 往 关注 用 户 列表 增加 用 户 的 代码 变 得 商 单 多 了 : 


String newUserFollowed = "MTFanBoy2"; 

Put p = new Put (Bytes.toBytes ("TheFakeMT")).; 

p.add (Bytes.toBytes ("follows"), 列 限定 符 中 使 用 新 用 户 
Bytes .toBytes (newUserFollowed), < 一 ID， 单 元 值 是 1 


Bytes.toBytes (1) ) ; 
followsTable.put(P) ; 


但 是 ， 读 取 关 注 用 户 列 表 的 代码 会 有 扩 儿 变化 。 不 再 十 读 回 早 元 
值 ， 现 在 需要 读 回 列 限定 符 。 采 用 这 种 变化 过 的 设计 ， 你 将 不 再 有 之 
前 可 以 得 到 的 计数 。 不 过 不 要 担心 ， 下 一 章 我 们 会 教 你 如 何 实现 这 一 
局 

提示 HBase 没 有 跨行 事务 的 概念 。 请 避 开 在 客户 端 代码 里 需要 事 


TwitBase 中 有 一 些 用 户 可 能 会 关注 很 多 人 。 这 意味 着 你 刚 设计 的 
HBase 表 会 有 变 长 的 行 。 这 本 吴 不 是 问题 ， 但 是 它 影 响 到 了 读 模 式 。 
考虑 一 下 这 个 问题 “TheFakeMT 关 注 TheRealMT 了 吗 ? ”如 何 使 用 这 张 
表 回 答 这 个 问题 呢 ? 在 行 键 上 指定 TheFakeMT， 在 列 限 定 符 上 指定 
TheRealMT， 一 个 Get 请 求 惑 可 以 搞定 。 对 于 HBase 来 说 ， 这 个 操作 非 
常 快 。 

HBase 访 问 时 间 复 杂 度 


“HBase 运 算 有 多 快 ? ”回答 这 个 问题 涉及 很 多 考量 因素 。 让 我 们 先 
定义 一 些 变量 : 

加 n= 表 中 KeyValue 条 目 数量 (包括 Put 的 结果 和 Delete 留 下 的 墓碑 
标记 ) ; 

四 b = HFile 里 数据 块 (HFile block) 的 数量 ; 

加 6 = 平均 一 个 HFile 里 KeyValue 条 目的 数量 (如 果 你 知道 行 的 大 
小 ， 可 以 计算 得 到 ) 

四 c= 每 行 里 列 的 平均 数量 。 

注意 ， 我 们 是 在 单个 列 族 的 语 境 中 讨论 这 一 点 的 。 

移 来 定义 针对 指定 行 键 查找 相关 HFile 数 据 块 需要 的 时 间 。 无 论 是 
你 在 单行 上 执行 get0 命 令 ， 还 是 为 一 次 扫描 查找 起 始 键 ， 都 会 有 这 个 
动作 。 

第 一 步 ， 客 户 端 寻找 正确 的 RegionServer 和 region。 人 花费 3 次 固定 运 
算 找到 正确 的 region 一 一 查找 ZK， 查 找 -ROOT-， 查 找 .META.。 这 是 一 
次 O(D 运 算 由 。 

在 指定 region 上 ， 行 在 读 过 程 里 可 能 存在 于 两 个 地 方 : 如果 还 没 
有 刷 写 到 硬盘 瓯 位 于 MemStore， 如 采 已 经 刷 写 则 位 于 一 个 HFile 里 。 人 得 
化 起 见 ， 我 们 假定 只 有 一 个 HFile， 这 一 行 要 么 在 这 个 文件 里 ， 要 么 还 
没有 刷 写 ， 在 MemStore 里 。 

让 我 们 用 e 合 理 代 表 任 何 指 定时 间 在 MemStore 里 的 条 目 数 量 。 如 采 
一 行 在 MemStore 里 ， 因 为 MemStore 是 使 用 跳 表 (skip list) [41 实现 
的 ， 所 以 查找 行 的 时 间 复 杂 度 是 O(log e)。 如 果 一 行 已 经 被 刷 写 到 硬盘 
上 ， 你 需要 找到 正确 的 HFile 数 据 块 。 数 据 块 索引 是 排 过 序 的 ， 所 以 碍 
找 正确 的 数据 块 是 一 次 时 间 复 杂 度 为 O(log b) 的 运算 。 和 碍 找 行 里 的 
KeyValue 对 象 是 在 数据 块 里 的 一 次 线性 扫描 操作 。 在 你 找到 第 一 个 
KeyValue 对 象 后 ， 随 后 查找 剩 下 的 对 象 就 是 一 次 线性 扫描 。 假 设 行 里 


的 单元 都 在 同一 个 数据 块 里 ， 扫 描 的 时 间 复 杂 度 是 O (elb)。 如 果 行 里 的 
单元 不 在 同一 个 数据 块 里 ， 这 种 扫描 需要 访问 多 个 连续 数据 块 里 的 数 
据 ， 所 以 这 时 的 运算 由 读 取 的 行 数 决定 ， 其 时 间 复 杂 度 是 O(c)。 也 就 
是 说 ， 这 种 扫描 的 时 间 复 杂 度 是 O(max(c,e/b))。 

总 之 ， 查 找 某 一 行 的 开销 如 下 所 示 : 

O(1) 用 于 查找 region 

+ O(log e) 用 来 在 MemStore 里 定位 KeyValue， 如 果 它 还 在 MemStore 


或 者 O(1) 用 于 查找 region 

+ O(log b) 用 来 在 HFile 里 查找 正确 的 数据 块 

+ O(max(c,e/b)) 用 来 查找 扫描 的 决定 性 部 分 ， 如 果 它 已 被 刷 写 到 硬 
i 

在 访问 Hbase 中 的 数据 时 ， 决 定性 因素 是 扫描 HFile 数 据 块 找到 相关 
KeyValue 对 象 所 花费 的 上 时间。 如 有 果 使 用 宽 行 ， 这 会 在 扫描 过 程 中 增加 
处 理 整 行 的 开销 。 所 有 这 些 分 析 ， 都 假设 你 知道 你 要 查找 的 行 的 行 
刍 。 

如 果 不 知 道行 键 ， 你 就 需要 扫描 整个 区 间 (有 可 能 是 整 张 表 ) 来 
查找 你 关心 的 行 ， 这 个 时 间 复 杂 度 是 O(n)。 在 这 样 的 情况 下 ， 你 将 不 
再 得 益 于 把 扫描 限定 在 奉 干 HFile 数据 块 里 。 

我 们 这 里 没有 讨论 人 硬盘 寻 道 开销 。 如 有 果 需 要 从 HFile 里 读 取 的 数据 
已 经 被 加 载 进 数据 块 缓存 (block cache) ， 前 面 的 分 析 是 正确 的 。 如 果 
数据 还 需要 从 HDFS 读 到 数据 块 缓存， 从 硬盘 读 取 数 据 块 的 开销 会 增 大 
很 多 ， 从 学 术 上 讲 这 种 分 析 已 经 没有 意义 。 

因为 行 键 是 所 有 这 些 索 引 的 决定 性 因素 ， 所 以 结论 是 访问 宽 行 要 
比 访问 鹤 行 开销 大 。 如 果 知 道行 键 ， 按 照 HBase 建 立 索 引 的 内 部 工作 原 
理 ， 你 会 从 中 得 到 很 大 好 处 。 


再 来 看 看 图 4-6 所 示 的 follows 表 的 另 一 种 模式 设计 。 到 现在 为 止 ， 
你 使 用 的 表 在 设计 上 都 是 一 种 宽 表 (wide table) 。 也 就 是 说 ， 一 行 包 
括 很 多 列 。 同 样 的 信息 可 以 用 高 表 (tall table) 形式 存储 ， 这 是 一 种 新 
模式 ， 如 图 4-6 所 示 。HFile 里 的 KeyValue 对 象 存 储 列 族 名 字 。 使 用 短 
的 列 族 名 字 在 减少 硬盘 和 网 络 IO 方面 很 有 帮助 。 这 种 优化 方式 也 可 以 
应 用 到 行 键 、 列 限定 符 ， 甚 至 单元 ! 紧 凌 存储 数据 意味 着 可 以 减少 IO 
负载 。 
使 用 短 的 列 族 名 字 和 列 限 定 符 名 字 ， 可 以 减少 网 络 
上 传 回 客户 端的 数据 量 。 因 为 KeyValue 对 象 变 小 了 。 


CQ: 被 关注 用 户 名 


行 键 : 
Ca 
单元 值 : ] 
行 键 里 的 + 串联 了 两 个 值 。 你 可 以 使 用 
任何 喜欢 的 字符 ， 例 如 ，A-B 或 者 A,B。 

图 4-6 follows 表 的 新 模式 ， 在 行 键 里 包括 关注 人 和 被 关注 人 。 在 
HBase 表 里 ， 这 种 模式 将 转换 为 每 行 代表 一 个 “关注 -被 关注 关系。 这 
是 一 个 高 表 ， 不 是 之 前 的 宽 表 
保存 了 一 些 样 例 数 据 的 表 如 图 4-7 所 示 。 


[ | 
TheFake MT+TheReal MT 
TheFake MT+MTFanBoy 
TheFake MT+Olivia 
TheFake MT+HRogers 
TheReal MT+Olivia 
TheReal MT+HRogers 


图 4-7 按 高 表 而 不 是 宽 表 设计 follows 表 。 (Amandeep 是 我 们 提 到 
的 粉丝 。) 把 用 户 名 放 进 列 限定 符 可 以 节省 为 了 得 到 用 户 名 到 用 户 表 
查找 的 时 间 。 当 在 本 表 查 找 关 系 时 ， 玖 可 以 轻松 地 列 出 名 字 或 者 ID。 
其 负面 影响 是 ， 如 果 用 户 在 用 户 表 里 更 新 他 们 的 名 字 ， 你 不 得 不 在 本 

表 的 所 有 单元 里 更 新 用 户 名 字 。 这 是 一 种 典型 的 反 规范 化 处 理 

表 的 这 种 新 设计 在 回答 第 二 个 问题 ( 即 “TheFakeMT 关 注 
TheRealMT 了 吗 ? ”) 时， 会 比 前 一 种 设计 快 。 你 可 以 基于 行 键 
TheFakeMT+TheRealMT 使 用 getO 得 到 一 行 ， 也 丈 得 到 答案 了 。 列 族 里 
只 有 一 个 单元 ， 所 以 不 会 有 前 一 种 设计 里 的 多 个 KeyValue 对 象 。 在 
HBase 中 访问 驻 留 在 BlockCache 里 的 一 个 窗 行 是 最 快 的 读 操 作 。 

回答 第 一 个 问题 “TheFakeMT 关注 了 谁 ?*” 则 变 成 了 一 次 索引 查 
找 ， 先 找到 以 TheFakeMT 为 前 级 的 第 一 个 数据 块 ， 然 后 基于 以 
TheFakeMT 开 头 的 行 键 对 随后 的 行 执行 一 次 扫描 。 从 IO 观点 看 ， 在 这 
里 扫描 那些 行 与 在 一 个 宽 行 上 执行 Get 命 令 然后 遇 历 所 有 单元 相 比 ， 你 
从 RegionServer 读 取 了 相同 的 数据 量 。 还 记得 HEFile 的 设计 吗 ? 两 种 表 设 
计 的 物理 存储 本 质 上 是 相同 的 ， 发 生变 化 的 是 物理 索引 ， 稍 后 我 们 会 
讨论 。 


获取 关注 用 户 列 表 的 代码 现在 是 这 个 样子 : 


创建 一 个 新 扫描 器 来 扫描 

ee emer ed TheFakeMT 的 所 有 关系 。 从 
Ss.a amily (Bytes.toBytes ; 
S .SetStartRow (Bytes.toBytes ("TheFakeMT'" ) ) ; re 
s.setSstopRow (Bytes.toBytes ("TheFakeMT" + 1)); 1 停止 。 查 找 出 行 键 的 第 一 部 分 是 
ResultScanner results = followsTable.getScanner(s); | TheFakeMT 的 所 有 行 。 
List<String> followedList = new ArrayList<String>(); 
for (Result r : results) { 

String relation = Bytes.toSstring(r.getRow()); 

String followedUser = relation.split("+") [1]; 

followedList.add (followedUser).; 


取出 行 键 的 第 二 部 分 ,假设 
以 + 为 分 隔 符 。 


检查 两 个 用 户 关 注 关 系 是 否 存在 的 代码 如 下 : 
Get g = new Get (Bytes .toBytes ("TheFakeMT'" + "+" + "TheRealMT"),; < 
g.addFamily (Bytes.toBytes ("f")); 本 
Result r = followsTable.get (g); 读 取 TheFakeMT 和 


if (!r.isEmpty ()) TheRealMT 之 间 关 系 的 行 。 


ee en 如 果 返 回 的 行 不 为 空 ， 
那么 这 种 关系 存在 。 


为 了 往 关 注 用 户 列 表 增 加 新 关 注 ， 执 行 一 个 简单 的 put0， 如 下 所 


小: 
Put p = new Put (Bytes.toBytes("TheFakeMT" + "+" + 1TheRealLMT'" ) ; 
p.add (Bytes.toBytes('"f"), Bytes.toBytes (newFollowedUser), Bytes.toBytes (1) ) ; 


followsTable.put (P) ; 

提示 getOAPI 调 用 内 部 实现 为 一 次 扫描 单行 的 scan0 运 算 。 

高 表 并 不 总 是 表 设 计 的 最 好 选择 。 为 了 获得 高 表 的 性 能 好 处 ， 你 
在 某 些 操作 上 牺牲 了 原子 性 原则 。 在 前 面 的 设计 中 ， 你 可 以 在 一 行 上 
用 单个 Put 运 算 更 新 任何 用 户 的 关注 列表 。Put 运 算 在 行 级 是 原子 不 可 分 
的 。 在 第 二 种 设计 里 ， 你 放弃 了 这 样 做 的 能 力 。 本 例 中 ， 因 为 你 的 应 
用 不 需要 原子 性 ， 所 以 是 可 行 的 。 但 是 其 他 使 用 场景 可 能 需要 这 种 原 
子 性 ， 那 时 宽 表 更 合适 。 

注意 你 为 了 获得 高 表 带 来 的 性 能 好 处 而 放弃 了 原子 性 原则 。 

这 里 有 一 个 好 问题 ， 为 什么 在 列 限 定 符 里 使 用 用 户 名 字 ? 不 是 必 
须 这 样 做 的 。 移 来 想 想 TwitBase 的 用 途 以 及 用 户 在 读 取 这 张 表 时 可 能 会 
做 的 事情 。 要 么 他 们 在 请 求 整个 关注 列表 ， 要 么 他 们 在 碍 找 茶 人 的 人 商 
介 来 看 看 他 们 是 否 在 关注 男 一 个 用 户 。 在 这 两 种 情况 下 ， 仪 仪 返回 用 


户 ID 都 是 不 够 时， 更 重要 的 是 用 户 的 真实 名 字 。 此 时 这 个 信息 存储 在 
users 表 里 。 为 了 得 到 用 户 的 真实 名 字 ， 你 不 得 不 根据 返回 的 关注 表 的 
每 一 行 再 到 用 户 表 里 取出 用 户 名 字 。 要 知道 HBase 不 像 关 系 型 数据 库 系 
统 那样 只 需要 执行 一 次 联结 就 可 以 在 单条 SQL 得 询 里 完成 所 有 这 些 ， 
在 HBase 中 你 不 得 不 显 式 地 让 你 的 客户 端 读 取 两 个 (de-normalize) ， 
不 同 的 表 来 生成 你 需要 的 信息 。 简 单 起 见 ， 你 可 以 进行 反 规范 化 处 理 
3] 把 用 户 名 字 放 在 列 限定 符 里 ， 或 者 就 这 个 例子 而 言 ， 还 可 以 放 在 表 
的 单元 里 。 但 是 这 样 做 并 不 是 没有 缺陷 。 这 种 方式 需要 维护 users 表 和 
follows 表 的 一 致 性 ， 这 有 点 儿 挑 战 。 是 否 选择 这 样 做 是 一 种 权衡 。 我 
们 这 样 做 的 目的 是 为 了 告诉 你 在 HBase 中 反 规 范 化 处 理 的 思路 和 背后 
的 原因 。 如 果 你 预期 你 的 用 户 会 频繁 修改 他 们 的 名 字 ， 反 规范 化 处 理 
可 能 就 不 是 一 个 好 主意 。 我 们 假设 他 们 的 名 字 是 相当 稳定 的 ， 反 规范 
化 代价 不 算 高 。 

提示 为 了 不 增加 你 的 客户 端 代码 的 复杂 性 ， 尽 可 能 反 规 范 化 处 
理 。 但 是 规 止 今天 ，HBase 还 不 能 提供 使 反 规 范 化 易于 处 理 的 特性 。 

你 还 可 以 采用 另外 一 种 优化 技巧 来 进行 简化 。 在 twits 表 里 ， 你 曾 
经 使 用 MD5 值 作为 行 键 。 这 样 可 以 得 到 定 长 行 键 。 使 用 散 列 键 还 有 其 
他 的 好 处 。 你 可 以 在 follows 表 里 使 用 MD5(userid1)MD5(userid2) 并 去 挥 
+ 分 隔 符 做 行 键 ， 取 代 userid1+userid2。 这 会 带 来 两 个 好 处 。 第 一 个 好 
处 是 ， 行 键 都 是 统一 长 度 的 ， 可 以 帮助 你 更 好 地 预测 读 写 性 能 。 但 是 
如 有 果 你 已 经 限定 了 userid 长 度 ， 这 可 能 不 算是 一 个 重大 收获 。 第 二 个 好 
处 是 ， 不 再 需要 分 隅 符 了 ， 更 容易 为 扫描 操作 计算 起 始 和 停止 键 。 

使 用 散 列 键 也 会 有 助 于 数据 更 均匀 地 分 布 在 region 上 “。 在 这 个 一 直 
使 用 的 例子 里 ， 数 据 的 分 布 不 是 问题 。 但 是 ， 如 采 你 的 访问 模型 天 生 
是 倾斜 的 ， 这 束 会 成 为 一 个 问题 ， 你 会 过 到 负载 没有 分 摊 在 整个 集群 
上 而 是 集中 在 几 个 region 上 的 热点 (hot-spotting) 。 

执 占 


HBase 语 境 中 的 热点 指 的 是 负载 极度 集中 在 一 小 部 分 region 上 。 
为 负载 没有 分 散在 整个 集群 上 ， 这 是 不 合理 的 。 服 务 这 些 region 的 几 台 
机 噩 承担 了 绝 大 部 分 工作 ， 将 成 为 整体 性 能 的 上 瓶颈 。 

例如 ， 如 果 你 插入 时 间 序 列 数据 ， 行 键 开 头 是 时 间 戳 ， 因 为 任何 
写 入 的 时 间 惟 总 是 大 于 已 经 写 入 的 时 间 堆 ， 数 据 总 是 追加 在 表 的 尾 
部 。 因 此 ， 表 的 最 后 的 region 束 会 成 为 热点 。 

如 有 果 对 时 间 惟 做 MD5 计 算 并 用 做 行 键 ， 你 会 在 所 有 region 上 实现 一 
个 均匀 的 分 布 ， 但 是 这 样 你 会 失去 数据 的 顺序 。 换 句 话 说 ， 你 不 能 
扫 摘 一 个 小 的 时 间 玫 围 。 你 要 么 读 取 指 定时 间 稚 ， 要 么 扫 搬 整个 表 。 
但 是 ， 你 的 客户 端 可 以 在 提交 请 求 前 移 对 时 间 惟 做 MD5 运 算 ， 所 以 并 

“影响 对 指定 时 间 惟 记录 的 访问 。 

散 列 和 MD5 镭 

散 列 函数 是 把 变 长 的 巨大 数值 映射 到 定 长 的 小 数值 上 的 一 种 函 
数 。 有 多 种 散 列 算法 ，MD5 是 其 中 之 一 。MD5 对 任何 数据 进行 散 列 运 
算 生成 一 个 128 位 (16 字 节 ) 的 散 列 值 。 这 是 一 种 流行 的 散 列 函数 ， 可 
以 使 用 在 各 种 地 方 ， 你 可 能 已 经 用 过 了 。 

一 般 来 说 ， 在 信息 检索 领域 特别 是 HBase 中 散 列 是 一 种 重要 的 技 
术 。 详 细 介 绍 这 些 算法 超出 了 本 书 的 范围 。 如 采 想 深入 了 解散 列 和 
MD5 算 法 ， 我 们 建议 你 查找 在 线 资源 。 

如 果 你 在 行 键 里 使 用 MD5，follows 表 如 图 4-8 所 示 。 在 行 键 里 存 
储 用 户 ID 的 MD5 值 ， 所 以 当 读 回 时 你 不 会 直接 得 到 用 户 ID。 当 你 想 
获取 Mark Twain 天 注 用 户 列 表 时 ， 你 会 得 到 用 户 ID 的 MD5 值 而 不 是 用 
户 ID。 但 是 因为 你 也 想 存 储 用 户 的 名 字 ， 这 个 信息 可 以 被 存储 在 列 限 
定 符 里 。 如 采 还 要 得 到 用 户 ID， 你 可 以 考虑 把 用 户 ID 存 入 列 限定 符 ， 
而 把 用 户 名 字 存 入 单元 值 。 


使 用 用 户 ID 的 MD5 值 可 以 把 变 长 的 
用 户 ID 变 成 定 长 。 你 不 再 需要 逻辑 
清晰 的 用 户 ID 的 拼接 。 


CGE 


COQ: followed userid 
md5(follower)md5(followed) PT 


单元 值 : 关注 用 户 名 
图 4-8 使 用 MD5 作为 行 键 的 一 部 分 可 以 得 到 固定 长 度 和 更 好 的 分 


和 


数据 存 入 后 的 表 如 图 4-9 所 示 。 


MDS(TheFakeMT) MDS(TheReal MT) TheReal MT:Mark Twain 
MDS(TheFakeMT) MD5S(MTFanBoy) MTFanBoy:Amandeep Khurana 


图 4-9 在 行 键 中 使 用 MD5 可 以 去 掉 之 前 需要 的 + 分 隔 符 。 现 在 行 键 
由 两 个 定 长 部 分 组 成 ， 每 个 用 户 ID 对 应 16 个 字 节 


4.1.4 目标 访 站 


此 时 ， 你 可 能 想 知 道 在 HBase 中 应 该 使 用 什么 样 的 索引 。 我 们 在 前 
面 两 章 已 经 讨论 过 ， 但 是 当 考 虑 表 设 计时 ， 这 一 点 变 得 更 加 重要 了 。 
高 表 和 宽 表 的 讨论 根本 上 是 一 场 需要 对 什么 和 不 对 什么 建立 索引 的 讨 
论 。 把 更 多 信息 放 入 行 键 可 以 赋予 你 在 固定 时 间 内 回答 某 些 问 题 的 能 


力 。 还 记得 第 2 章 的 读 过 程 和 数据 块 索 引 吗 ? 这 里 束 是 这 样 做 的 ， 高 表 
使 你 快速 得 到 正确 的 行 。 

HBase 表 里 只 有 键 可 以 建立 索引 (KeyValue 对 象 的 Key 部 分 ， 包 括 
行 键 、 列 限定 符 和 时 间 惟 ) 。 可 以 把 它 看 做 是 关系 型 数据 库 系 统 的 主 
键 ， 但 是 你 不 能 改变 构成 主键 的 列 ， 这 里 的 键 由 3 个 数据 元 素 复 合 而 
成 〈 行 键 、 列 限定 符 和 时 间 戳 ) 。 访 问 一 个 特定 行 的 唯一 办 法 是 通过 
行 键 。 在 列 限 定 符 和 时 间 戳 上 建立 索引 ， 可 以 让 你 在 一 行 上 不 用 扫 摘 
前 面 所 有 的 列 而 直接 跳 到 正确 的 列 。 你 取 回 的 KeyValue 对 象 基 本 上 是 
来 目 于 HFile 的 一 行 ， 如 图 4-10 所 示 。 

从 表 中 获取 数据 有 两 种 方式 ， 即 Get 和 Scan。 如 果 你 需要 一 行 ， 
可 以 使 用 Get 调 用 ， 这 种 情况 下 必须 提供 行 键 。 如 果 你 想 执 行 一 次 扫 撒 

(Scan) ， 如 果 你 知道 起 始 和 停止 键 ， 你 可 以 选择 使 用 它们 来 限制 扫 
描 器 对 象 扫描 的 行 数 。 

当 执行 Get 命 令 时 ， 你 可 以 直接 跳 到 包含 被 查找 行 的 数据 块 。 从 那 
里 ， 扫 描 数 据 块 来 找 出 构成 该 行 的 相关 KeyValue 对 象 。 在 Get 对 象 里 ， 
如 有 果 你 愿意 ， 也 可 以 指定 列 族 和 列 限 定 符 。 指 定 列 族 ， 可 以 限制 客户 
端 只 访问 指定 列 族 的 HFile， 指定 列 限 定 符 不 会 限制 从 硬盘 读 出 的 
HFile， 但 是 可 以 限制 网 络 上 传 回 的 和 东西。 如果 在 给 定 的 region 上 一 个 列 
族 存在 多 个 HFile， 要 查找 在 Get 调用 里 指定 的 行 的 内 容 ， 不 管 有 多 少 
个 HFile 包 含 与 请 求 有 天 的 数据 ， 都 要 访问 所 有 的 HFile。 但 是 在 Get 里 
尽 可 能 明确 查找 内 容 是 有 帮助 的 ， 因 为 不 必 在 网 络 上 传 回 客户 端 不 需 
要 的 数据 。 唯 一 的 开销 是 RegionServer 上 可 能 的 硬盘 IO。 如果 在 Get 对 
象 里 指定 时 间 戳 ， 可 以 避免 读 取 早 于 时 间 稚 的 HFile。 图 4-11 在 一 个 简 
单 的 表 里 解 释 了 这 一 点 。 


一 张 HBase 表 的 逻辑 表示 。 SA Ne 
我 们 会 看 到 对 这 张 表 的 5 行 执行 Get0 意 味 着 什么 。 这 张 表 的 实际 物理 存储 


CFl CF2 CF1 的 HFile CF2 的 HFile 


rl:CFl:cl:tl:vl 
r2:CF1:c1:t2:v2 pe 
1r2:CF1:c3:t3:v6 a i 
r3:CF1:c2:tl:v3 ,3 CF2:c5:t4:vG 
r4:CFl:c2:tl:v4 
! r5:CF1 :cl:2:v1! 
ITS:CF1: c3:t3:v5 1 


1r5:CF2:c7:G:v8| 


nonoblel tyl 
r$:CF1:c3:t3:v5 
r5:cf2:c7:t3:v8 


KeyValue 对 象 的 结 
图 4-10 一 张 HBase 表 的 逻辑 模型 到 物理 模型 的 转换 。HFile 里 每 条 
记录 代表 一 个 KeyValue 对 象 。 该 图 显示 了 在 表 上 执行 get(r5) 读 取 r5 行 的 


限制 硬盘 IO 
限制 网 络 IO 


图 4-11 根据 指定 的 键 的 某 个 部 分 ， 你 可 以 限制 读 取 硬盘 的 数据 量 
或 者 网 络 传输 的 数据 量 。 指 定 行 键 则 只 返回 你 需要 的 行 。 但 是 服务 器 
返回 整 行 给 客户 端 。 指 定 列 族 让 你 进一步 限制 读 取 行 的 什么 部 分 ， 因 


此 如 果 行 横路 多 个 列 族 可 以 只 读 取 HFile 的 一 个 子 集 。 进 一 步 指定 列 限 
定 符 和 时 间 戳 ， 可 以 让 你 减少 返回 客户 端的 列 数 ， 因 此 蔬 省 了 网 络 IO 

你 可 以 利用 这 一 点 来 设计 表 。 把 数据 放 入 单元 值 和 把 它 放 入 列 限 
定 符 或 行 键 将 占用 相同 的 存储 空间 。 但 是 把 数据 从 单元 移 到 行 键 你 可 
能 得 到 更 好 的 性 能 。 考 虑 到 行 键 是 建立 索引 的 唯一 办 法 ， 把 更 多 数据 
放 入 行 键 的 负面 因素 是 数据 块 索引 变 得 更 大 了 。 

目前 为 止 ， 你 已 经 学 习 了 相当 多 东西 ， 本 章 其 余部 分 将 继续 在 此 
基础 上 继续 。 在 继续 之 前 让 我 们 快速 做 一 个 小 结 。 

四 HBase 表 很 灵活 ， 可 以 用 字符 数组 形式 存储 任何 东西 。 

四 在 同一 列 族 里 存储 相似 访问 模式 的 所 有 东西 。 

四 索 引 建 立 在 KeyValue 对 象 的 Key 部 分 上 ，Key 由 行 键 、 列 限定 
符 和 时 间 戳 按 次 序 组 成 。 

四 高 表 可 能 文 持 你 把 运算 复杂 度 降 到 O(1)， 但 是 要 在 原子 性 上 付出 
de 

图 设计 HBase 模式 时 进行 反 规 范 化 处 理 是 一 种 可 行 的 办 法 。 

四 想 想 如 何 能 够 在 单个 API 调用 里 而 不 是 多 个 API 调用 里 完成 访 
问 模 式 。HBase 不 文 持 跨 行事 务 ， 要 避免 在 客户 端 代码 里 维护 这 种 复杂 
的 逻辑 。 

四 歼 列 文 持 定 长 键 和 更 好 的 数据 分 布 ， 但 是 失去 了 排序 的 好 处 。 

晶 列 限定 符 可 以 用 来 存储 数据 ， 允 像 单 元 一 样 。 

量 因为 可 以 把 数据 放 入 列 限定 符 ， 所 以 它 的 长 度 影响 存储 空间 。 当 
访问 数据 时 ， 它 也 影响 了 硬 一 和 网 络 IO 的 开销 。 所 以 尽量 简练 。 

加 列 族 名 字 的 长 度 影 响 了 通过 网 络 传 回 客户 端的 数据 大 小 (在 
KeyValue 对 象 里 ) 。 所 以 尽量 简练 。 

我 们 经 历 了 一 个 示例 表 设 计 流 程 ， 学 了 一 大 挫 概 念 ， 让 我 们 固化 
一 些 核心 思路 ， 看 看 设计 HBase 表 时 可 以 如 何 运 用 它们 。 


4.2 反 规 范 化 是 HBase 世 界 里 的 词语 


设计 HBase 表 的 一 个 关键 概念 是 反 规 范 化 。 我 们 在 本 节 深 入 讨论 这 
一 概念 。 到 现在 为 止 ， 你 已 经 看 到 我 们 维护 了 单个 用 户 的 关注 用 户 列 
表 。 当 TwitBase 用 户 登 录 账 户 ， 和 希望 看 到 他 们 所 关注 的 人 的 推 帖 ， 你 的 
应 用 会 提取 关注 用 户 列表 和 他 们 的 推 帖 ， 返 回 这 些 信息 。 随 着 系统 
户 数量 增长 ， 这 个 过 程 会 很 花 时 间 。 此 外 ， 如 果 一 个 用 户 被 许多 人 关 
注 ， 每 次 粉丝 登录 ， 他 的 推 帖 都 会 被 访问 。 托 管 这 个 受 欢迎 的 人 的 推 
帖 的 region 将 会 不 断 回应 请 求 ， 因 此 我 们 制造 了 一 个 读 热 点 。 解 决 这 
个 问题 的 办 法 是 ， 在 系统 里 为 每 个 用 户 维护 一 个 推 帖 流 ， 一 旦 他 们 所 
关注 的 用 户 写 了 推 帖 ， 就 把 这 个 推 帖 加 到 自己 的 推 帖 流 里 。 

想 想 看 ， 显 示 一 个 用 户 推 帖 流 的 流程 被 改变 了 。 之 前 ， 你 需要 读 
取 他 们 的 关注 用 户 列表 ， 然 后 把 列表 中 每 个 人 的 最 新 推 帖 集合 起 来 形 
成 自己 的 推 帖 流 。 采 用 这 个 新 思路 ， 你 会 有 一 个 持续 存在 的 来 自 于 该 
用 户 推 帖 流 的 推 帖 列表 。 本 质 上 你 对 你 的 表 进 行 了 反 规 范 化 处 理 。 

规范 化 和 反 规 范 化 

规范 化 是 关系 型 数据 库 世 界 的 一 种 技术 ， 其 中 每 种 重复 信息 都 会 
放 进 一 个 自己 的 表 。 这 有 两 个 好 处 ， 当 发 生 更 新 或 删除 时 ， 不 用 担心 
更 新 指定 数据 所 有 副本 的 复杂 性 ; 通过 保存 单一 副本 而 不 是 多 个 副 
本 ,减少 了 占用 的 存储 空间 。 需 要 查询 时 ， 在 SQL 语 句 里 使 用 JOIN 子 
句 重新 联结 这 个 数据 。 

反 规 范 化 是 一 个 相反 概念 。 数 据 是 重复 的 ， 存 在 多 个 地 方 。 因 为 
你 不 再 需要 开销 很 大 的 JOIN 子 句 ， 这 使 得 查询 数据 变 得 更 容易 、 更 
快 。 

从 性 能 观点 看 ， 规 范 化 为 写 做 优化 ， 而 反 规范 化 为 读 做 优化 。 


规范 化 理想 世界 


dn 


糟糕 的 设计 反 规 范 化 


规 苑 化 为 写 操作 时 表 进 行 优 化 ， 在 读 取 时 付出 联结 数据 的 开销 。 
反 规 范 化 为 读 操作 对 表 进 行 优 化 ， 但 是 在 写 入 时 付出 多 个 副本 的 开销 
本 例 中 ， 可 以 通过 为 推 帖 流 给 每 个 用 户 专 门 建立 一 张 表 的 方式 进 
行 反 规范 化 处 理 。 这 样 做 ， 可 以 消除 读 的 扩展 能 力 问题 ， 通 过 为 所 有 
读 帖 人 (关注 受 欢 迎 的 人 的 用 户 ) 建立 多 个 数据 (本 例 中 是 受 欢迎 的 
人 的 推 帖 ) 副本 来 解决 这 个 问题 。 
截止 目前 ， 有 了 users 表 、twits 表 和 follows 表 。 当 一 个 用 户 登 录 进 
来 ， 你 使 用 下 面 流 程 建 立 他 的 推 帖 流 。 
(1) 获取 这 个 用 户 的 关注 用 户 列表 。 
(2) 获取 每 个 被 关注 用 户 的 推 帖 。 
(3) 集合 这 些 推 帖 ， 按 时 间 惟 排序， 最 新 的 在 最 前 面 。 
你 可 以 选择 许多 种 方式 来 进行 反 规 范 化 处 理 。 你 可 以 给 users 表 增 
加 一 个 列 族 来 为 每 个 用 户 维护 一 个 推 帖 流 。 或 者 你 为 推 帖 流 另 外 建立 
一 张 表 。 把 推 帖 流放 进 users 表 的 做 法 不 大 理想 ， 因 为 那 张 表 的 行 键 设 
计 不 是 为 这 个 目的 而 优化 的 。 先 恋 下 去 ， 很 快 你 就 会 知道 原因 。 
推 帖 流 表 的 访问 模式 由 两 种 情况 组 成 。 


四 当 给 定 用 户 登 录 时 读 取 推 帖 流 ， 按 建立 时 间 戳 倒序 〈 最 新 最 靠 
前 ) 显示 给 他 。 

加 当 他 关注 的 任何 用 户 写 了 一 条 推 帆 时 ， 把 这 条 推 帖 加 到 目 己 的 推 
帖 列表 里 。 

需要 考虑 的 另 一 件 事情 是 推 帖 流 的 保留 策略 。 例 如 ， 你 可 能 想 维 
护 一 个 最 近 72 小 时 的 推 帖 流 。 我 们 后 面 会 讨论 生存 时 间 (Time To 
Live，TTL) 概念 ， 这 是 列 族 高 级 配置 的 一 个 部 分 。 

运用 我 们 已 经 学 到 的 概念 ， 你 会 发 现 把 用 户 ID 和 倒序 时 间 戳 放 入 
行 键 比较 合理 。 这 样 可 以 轻松 地 在 表 里 扫 描 一 组 行 来 获取 构成 推 帖 流 
的 推 帖 。 你 还 需要 存储 创建 每 条 推 帖 的 人 的 用 户 ID， 这 个 信息 可 以 放 
进 列 限 定 伯 。 这 张 表 如 图 4-12 所 示 。 

当 某 人 创建 一 条 推 帖 时 ， 所 有 粉丝 应 该 分 别 在 自己 的 流 里 得 到 那 
条 推 帆 。 这 可 以 使 用 我 们 下 一 章 讨论 的 协 处 理 如 来 实现 。 这 里 我 们 可 
以 讨论 一 下 流程 是 什么 。 当 一 个 用 户 创建 一 条 推 帖 时 ， 先 从 关系 表 里 
取出 他 的 粉丝 列表 ， 然 后 把 这 条 推 帖 加 到 每 个 粉丝 的 流 里 。 为 了 完成 
这 一 点 ， 你 首先 需要 查找 给 定 用 户 的 粉丝 列表 ， 这 和 你 的 关系 表 至 今 
所 解决 的 正好 相反 。 换 句 话 说， 你 想 有 效 地 回答 问题 : “ 谁 头 注 了 


我 ? 39 o 


倒序 时 间 稚 =Long.MAX_VALUE- 时 间 蕉 


mds(TheFakeMT) + reverse ts TheReal MT:First twit 
mds(TheFakeMT) + reverse ts Olivia: Second twit 


mds(TheFakeMT) + reverse ts HRogers: Twit foo 


mds(TheFakeMT) + reverse ts TheReal MT:Twit bar 


mds(TheRealMT) + reverse ts Olivia: Second twit 


md5(TheReal MT) + reverse ts HRogers: Twit foo 


图 4-12 为 每 个 用 户 存 储 推 帖 流 的 表 。 倒 序 时 间 戳 可 以 把 最 新 的 推 
帖 排 在 最 前 面 。 这 样 可 以 执行 高 效 扫描 ， 得 到 最 新 n 条 推 帖 。 在 用 户 的 


推 帖 流 里 获取 最 新 推 帖 需 要 扫描 表 
在 当前 表 的 设计 下 ， 通 过 扫 拉 整 张 表 并 且 找 出 行 健 的 后 半 部 分 是 
你 感 兴趣 的 用 户 的 所 有 行 ， 可 以 回答 这 个 问题 。 再 说 一 裔 ， 这 个 过 程 
是 低 效 的 。 在 关系 型 数据 库 系统 里 ， 通 过 在 第 二 部 分 上 增加 一 个 索引 
和 对 SQL 得 询 略 做 一 点 儿 改 变 就 可 以 解决 。 也 请 记 住 ， 你 需要 处 理 的 
数据 量 要 小 得 多 。 而 在 这 里 你 努力 完成 的 是 在 海量 数据 上 执行 这 种 运 
管 。 


4.3 相同 表 里 的 混杂 数据 


HBase 模 式 很 灵活 ， 现 在 将 使 用 这 种 灵活 性 来 避免 每 次 需要 某 个 用 
户 的 粉丝 列表 时 执行 前 面 那 种 扫描 。 我 们 希望 把 设计 HBase 表 时 涉及 的 
各 种 思路 介绍 给 你 。 当 前 你 的 关系 表 使 用 如 下 行 键 : 

md5 (user) + md5 (followed user) 

你 可 以 往 这 个 行 链 里 增加 关系 信息 ， 如 下 所 示 : 

md5 (user) + relationship type + md5 (user) 

这 可 以 让 你 在 同一 张 表 里 存储 两 种 关系 : 关注 (following) 和 被 
关注 (followed by) 。 为 了 回答 之 前 的 问题 ， 现 在 涉及 从 行 键 里 检查 关 
系 信息 。 当 你 访问 某 个 用 户 的 全 部 粉丝 或 者 某 个 用 户 的 全 部 关注 时 ， 
你 将 在 一 组 行 上 执行 扫描 。 当 为 第 一 种 情况 查找 用 户 列表 时 ， 你 希望 
避 开 读 取 另 一 种 情况 的 信息 。 换 名 话说 ， 当 查找 一 个 用 户 的 粉丝 列表 
时 ， 你 不 想 把 数据 集 里 的 关注 列表 返回 给 客户 端 应 用 。 你 可 以 通过 为 
扫描 设 定 起 始 和 停止 键 做 到 这 一 点 。 

让 我 们 看 看 另 一 种 可 能 的 键 结构 : 把 关系 信息 放 在 键 的 第 一 部 
分 。 新 键 就 像 这 样 : 


relationship type + md5 (user) + md5 (user) 


想 想 看 现在 数据 会 如 何在 RegionServer 上 人 分布。 特定 关系 类 型 的 所 
有 数据 将 会 放 在 一 起 。 如 有 果 你 查询 粉丝 列表 的 频 度 高 于 关注 列表 ， 人 负 
载 束 不 能 很 好 在 各 个 region 上 分 布 。 这 就 是 这 种 行 键 设计 的 负面 影响 ， 
以 及 在 同一 张 表 里 存储 混杂 数据 会 面临 的 挑战 。 

提示 尽 可 能 分 离 不 同 访问 模式 。 

本 例 中 改善 负载 分 布 的 办 法 是 为 你 想 存储 的 两 种 关系 分 别 建 表 。 
你 可 以 新 建 一 个 叫做 followedBy 的 表 ， 与 follows 表 有 同样 的 设计 。 这 样 
做 ， 你 可 以 避免 在 键 里 放 入 天 系 类 型 信息 。 这 有 助 于 在 集群 上 更 好 地 
分 布 负载 。 

我 们 将 面临 的 一 个 挑战 是 如 何 保持 两 张 表 里 的 天 系 条 目 一 致 。 当 
Mark Twain 决定 关注 他 的 粉丝 时 ， 需 要 往 两 个 表 里 分 别 增加 条 目 : 一 
个 在 follows 表 ， 男 一 个 在 followedBy 表 。 考 虑 到 HBase 不 支持 跨 表 或 
跨行 事务 ， 写 入 这 些 条 目的 客户 端 应 用 必须 保证 两 行 都 被 写 入 。 但 是 
故障 总 会 发 生 ， 如 果 需 要 在 客户 端 实现 事务 逻辑 ， 客 户 端 应 用 会 变 得 
很 复杂 。 理 想 情 况 下 ， 底 层 数据 库 系统 应 该 帮 你 处 理 这 种 事情 ， 但 是 
数据 规模 不 同 设计 不 同 ， 在 分 布 式 系统 领域 这 个 问题 至 今 还 没有 得 到 
解决 。 


到 现在 为 止 ， 你 在 设计 流程 中 准备 好 了 两 张 表 来 存储 关系 信息 。 
可 以 看 到 一 种 现象 ， 整 个 过 程 中 行 键 一 直 在 调整 。 

提示 在 设计 HBase 表 时 ， 行 键 是 唯一 最 重要 的 事情 。 应 该 基于 预 
期 的 访问 模式 来 为 行 键 建 模 。 

行 键 决定 了 访问 HBase 表 时 可 以 得 到 的 性 能 。 这 个 结论 根植 于 两 个 
事实 .region 基 于 行 键 为 一 个 区 间 的 行 提供 服务 ， 并 且 负 贡 区 间 内 每 一 
行 ，HFile 在 硬盘 上 存储 有 序 的 行 。 这 两 个 因素 是 相互 关联 的 。 当 


region 刷 写 留 在 内 存 里 的 行 时 生成 了 HFile， 这 些 行 已 经 排 过 序 ， 也 会 有 
序 地 刷 写 到 硬盘 上 。HBase 表 的 有 序 特性 和 底层 存储 格式 可 以 让 你 根据 
如 何 设计 行 键 以 及 把 什么 放 入 列 限定 符 来 推理 其 性 能 表现 。 为 了 恢复 
对 HFile 的 记忆 ， 请 看 图 4-13， 这 是 第 2 章 学 习 过 的 HFile 。 


"TheRealMT", "info", "email", 1329088321289, "samuel@clemens .org" 
"TheRealMT", "info", "name", 1329088321289, "Mark Twain" 
"TheRealMT", "info", "password", 1329088818321, "abcl123" 


"TheRealMT", "info", "password", 1329088321289, "Langhorne" 


users 表 里 的 info 列 族 对 应 的 HFile 
图 4-13 HFile 的 概念 性 结构 
关系 型 数据 库 可 以 在 多 个 列 上 建立 索引 ， 但 HBase 只 能 在 键 上 建立 
索引 ， 访 问 数据 的 唯一 办 法 是 使 用 行 键 。 如 有 果 不 知 道 想 访 问 的 数据 的 
行 键 ， 怠 必须 扫描 相当 多 的 行 ， 束 算 不 是 整 张 表 。 设 计 行 键 有 各 种 技 
巧 ， 而 且 可 以 针对 不 同 访问 模式 进行 优化 ， 我 们 接 下 来 研究 一 下 。 


4.5 IO 考虑 


HBase 表 的 有 序 特性 对 你 的 应 用 系统 来 说 是 个 重要 的 特性 。 例 如 ， 
上 一 敢当 我 们 查找 推 帖 流 表 时 ， 它 的 有 序 特性 使 你 能 够 快速 扫描 一 小 
组 行 而 得 到 最 新 推 帖 。 但 是 当 你 往 HBase 表 里 写 入 一 扒 时 间 序 列 数据 时 
同样 的 有 序 特性 会 起 负面 作用 (记得 热点 问题 吧 ? ) 。 如 果 使 用 时 间 
稚 做 行 键 ， 你 总 是 写 到 负责 这 个 时 间 玲 所 在 范围 的 一 个 region 上 。 实 际 
上 ， 你 总 是 在 写 入 表 的 尾部 ， 因 为 时 间 玲 天 然 是 单调 增长 的 。 这 不 仅 
使 整个 集群 受 限 于 单个 region 能 够 处 理 的 吞吐 量 ， 而 且 让 你 承担 单个 机 
绥 过 载 而 同时 集群 里 其 他 机 万 朵 置 的 风险 。 下 面谈 到 的 技 马 是 针对 你 
关心 的 访问 模式 对 设计 行 键 进行 优化 。 

4.5.1 为 写 优 化 


当 往 HBase 表 写 入 大 量 数 据 时 ， 你 希望 在 RegionServer 上 分 散人 负 
载 来 进行 优化 。 这 并 不 难 ， 但 是 你 可 能 不 得 不 在 读 模式 优化 上 付出 代 
价 。 比 如 ， 时 间 序 列 数据 的 例子 ， 如 果 你 的 数据 直接 使 用 时 间 惟 做 行 
键 ， 在 写 入 时 在 单个 region 上 会 遇 到 热点 问题 。 

许多 使 用 场景 下 ， 并 不 需要 基于 单个 时 间 惟 访问 数据 。 你 可 能 
运行 一 个 作业 在 一 个 时 间 区 间 上 做 聚合 计算 ， 如 采 对 时 间 延 迟 不 敏 
感 ， 可 以 考虑 跨 多 个 region 做 并 行 扫描 来 完成 任务 。 但 问题 是 ， 应 该 如 
何 把 数据 分 散在 多 个 region 上 呢 ? 有 几 个 选项 可 以 考 虚 ， 管 案 取 决 于 你 
想 让 行 键 包含 什 么 信息 。 

1. 散 列 

如 果 你 愿意 在 行 键 里 放弃 时 间 戳 信息 〈 每 次 你 做 什么 事情 都 要 扫 
措 全 表 ， 或 者 每 次 要 读数 据 时 你 都 知道 精确 的 键 ， 这 些 情 况 下 也 是 可 
行 的 ) ， 使 用 原始 数据 的 散 列 值 作为 行 键 是 一 种 可 能 的 解决 方案 ; 

hash('"TheRealLMT'") -> random byte[] 

每 次 当 你 需要 访问 以 这 个 散 列 值 为 键 的 行 时 ， 需 要 精确 知 
道 "TheRealMT"。 

时 间 序 列 数据 一 般 不 这 样 处 理 。 当 你 访问 数据 时 ， 可 能 记 住 了 一 
个 时 间 范 围 ， 但 不 大 可 能 知道 精确 的 时 间 礁 。 但 是 有 些 情况 下 ， 像 之 
前 创建 的 twits 表 或 关系 表 ， 你 知道 用 户 ID， 所 以 能 够 计算 散 列 值 从 而 
找到 正确 的 行 。 为 了 得 到 一 种 跨 所 有 region 的 、 优 秀 的 分 布 策略 ， 你 
可 以 使 用 MD5、SHA-1 或 者 其 他 提供 随机 分 布 的 散 列 玉 数 。 

全 撞 

散 列 算法 有 一 个 非 零 磁 接 概率。 有 些 算法 比 其 他 算法 高 。 当 用 于 
大 型 数据 集 时 需要 小 心 ， 要 尽量 使 用 低 碰撞 概率 的 散 列 算法 。 例 如 ， 
在 这 方面 SHA-1 优 于 MD5， 某 些 情况 下 SHA-1 可 能 是 个 更 好 的 选择 ， 即 
使 性 能 上 有 些许 损失 。 


使 用 散 列 函数 的 方式 也 很 重要 。 本 章 之 前 建立 的 关系 表 对 用 户 ID 
做 MD5 散 列 运算 ， 当 查找 特定 用 户 的 信息 时 你 可 以 轻松 地 反 算 回来 。 
但 是 注意 ， 你 连接 的 是 两 个 用 户 ID 的 散 列 值 (MD5(user1) + 
MD5(user2))， 而 不 是 连接 两 个 用 户 ID 后 再 做 散 列 运算 (MD5(userl + 
user2))。 这 是 因为 当 需 要 扫描 一 个 指定 用 户 的 关系 时 ， 你 需要 传递 起 始 
和 停止 键 给 scanner 对 象 。 如 果 行 键 是 连接 两 个 用 户 ID 后 的 散 列 值 ， 上 
面 的 要 求 束 做 不 到 了 ， 因 为 在 这 种 行 键 里 失去 了 指定 用 户 ID 的 信息 。 

2. salting 

当 你 思考 行 键 的 构成 时 ，salting 是 另 一 种 技巧 。 让 我 们 考虑 之 前 的 
时 间 序 列 数据 例子 。 假 设 你 在 读 取 时 知道 时 间 范 围 ， 但 不 想 做 全 表 扫 
描 。 对 时 间 惟 做 散 列 运 算 然 后 把 散 列 值 作为 行 键 的 做 法 需要 做 全 表 扫 
描 ， 这 是 很 低 效 的 ， 尤 其 是 在 你 有 办 法 限制 扫 摘 范围 的 时 候 。 使 用 散 
列 值 作 为 行 键 在 这 里 不 是 办 法 ， 但 是 你 可 以 在 时 间 戳 前面 加 上 一 个 随 
机 数 前 级 。 

例如 ， 你 可 以 先 计算 时 间 惟 的 散 列 码 然后 用 RegionServer 的 数量 
取 模 来 生成 随机 salt 数 : 


int salt = new Integer (new Long (timestamp) .hashCode()) .ShortValue () % <number 
of region servers> 


取得 salt 数 后 ， 加 到 时 间 戳 的 前 面 生成 行 键 : 
byte [] rowkey = Bytes.add(Bytes .toBytes (Salt) \ 
+ Bytes.toBytes("|") + Bytes .toBytes (timestamp) ) ; 


现在 行 键 如 下 所 未 : 


0|timestampl 
0|timestamp5 
0|timestamp6 
1|timestamp2 
1|timestamp9 
2|timestamp4 
2|timestamp8 


你 可 以 想到 ， 这 些 行将 会 基于 键 的 第 一 部 分 ， 也 就 是 随机 salt 效 ， 
分 布 在 各 个 region 。 

0ltimestamp1、0ltimestamp5 和 0ltimestamp6 将 进入 一 个 region， 除 非 
发 生 region 拆 分 〈 拆 分 的 情况 下 会 分 散 到 两 个 region) 。1ltimestamp2 和 
1ltimestamp9 进 入 男 一 个 不 同 的 region，2|timestamp4 和 2|timestamp8 进 入 
第 三 个 region。 连 续 时 间 惟 的 数据 散 列 进入 了 多 个 region 。 

但 并 非 一 切 都 是 完美 的 。 现 在 读 操作 需要 把 扫描 命令 分 散 到 所 有 
region 上 来 查找 相应 的 行 。 因 为 它们 不 再 存储 在 一 起 ， 所 以 一 个 短 扫 描 
不 能 解决 问题 了 。 这 是 一 种 权衡 ， 为 了 搭建 成 功 的 应 用 你 需要 做 出 选 
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4.5.2 为 读 优化 


在 设计 推 帖 流 表 时 ， 你 的 焦点 是 为 读 优 化 行 键 。 指 导 思 路 是 把 推 
帖 流 里 最 新 的 推 帖 存储 在 一 起 ， 以 便于 它们 可 以 被 快速 读 取 ， 而 不 用 
做 开销 很 大 的 硬盘 搜索 。 这 里 不 仅仅 涉及 硬盘 搜索 ， 而 且 还 涉及 数据 
是 否 存 储 在 一 起 ， 尽 量 把 较 少 的 HFile 数据 块 读 入 内 存 ， 来 获得 要 寻找 
的 数据 集 。 因 为 数据 存储 在 一 起 ， 每 次 读 取 HFile 数据 块 时 可 以 比 数据 
分 散 存 储 时 得 到 更 多 的 信息 。 在 推 帖 流 表 里 ， 你 使 用 倒序 时 间 戳 
(Long.MAX_VALUE -时 间 戳 ) 然后 附加 上 用 户 ID 来 构成 行 键 。 现 在 
你 基于 用 户 ID 扫描 其 邻 的 n 行 就 可 以 找到 用 户 需要 的 n 条 最 新 推 帖 。 这 
里 行 键 的 结构 对 于 读 性 能 很 重要 。 把 用 户 ID 放 在 开头 有 助 于 你 设置 扫 
描 ， 可 以 轻松 定义 起 始 键 。 接 下 来 我 们 讨论 行 键 结构 这 个 主题 。 
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4.5.3 丁 键 结 
行 键 结 构 至 关 重 要 。 有 歼 的 行 键 设计 不 仅 要 考虑 把 什么 放 入 行 键 
中 ， 而 且 要 考虑 它们 在 行 键 里 的 位 置 。 在 前 面 的 例子 里 ， 你 已 经 看 到 
两 种 行 键 结构 是 如 何 影 响 读 性 能 的 情况 。 


第 一 种 情况 是 关系 表 设 计 ， 在 那里 你 把 关系 类 型 放 在 两 个 用 户 ID 
之 间 。 因 为 读 操作 变 得 没有 效率 ， 这 种 做 法 效 采 并 不 好 。 这 种 情况 
下 ， 即 使 只 需要 指定 用 户 的 一 种 关系 类 型 的 信息 ， 你 也 不 得 不 读 出 

(至 少 从 硬盘 ) 两 种 关系 类 型 的 所 有 信息 。 把 关系 类 型 信息 移 到 行 键 
的 前 部 能 够 解决 这 个 问题 ， 这 种 行 键 允 许 你 只 读 取 需要 的 数据 。 

第 二 种 情况 是 推 帖 流 表 ， 在 那里 你 把 倒序 时 间 惟 放 在 键 的 第 二 部 
分 ， 用 户 ID 放 在 第 一 部 分 。 这 文 持 你 基于 用 户 ID 执行 扫描 ， 限 制 读 
取 的 行 数 。 在 那里 如 果 改 变 行 键 里 两 部 分 的 次 序 会 导致 用 户 ID 信息 的 
损失 ， 你 必须 扫描 一 个 时 间 范 围 来 得 到 推 帖 ， 但 是 这 个 时 间 范 围 的 返 
回 结果 包含 这 个 时 间 范 围 里 的 所 有 用 户 的 推 帖 。 

为 了 创建 一 个 简单 的 示例 ， 我 们 考虑 时 间 区 间 1..10 内 的 倒序 时 间 
惟 。 系 统 里 有 3 个 用 户 ， 即 TheRealMT、TheFakeMT 和 Olivia。 如 果 行 
键 把 用 户 ID 放 在 第 一 部 分 ， 行 键 如 下 所 示 〈 按 照 它们 在 HBase 表 里 的 存 
储 顺 序 ) : 


GRASS 
Olivia2 
Olivia5 
Olivia7 
Olivia9 
TherFakeMT2 
TheFakeMT3 
TheFakeMT4 
TheFakeMTS5S 
TheFakeMT6 
TheRealMT1 
TheRealMT2 
TheRealMT5 
TheRealMT8 


Ht 直 


但 是 ， 如 果 你 调换 键 的 顺序 ， 把 倒序 时 间 戳 放 在 第 一 部 分 ， 行 键 
排序 变 为 : 
lOlivia 
l1TheRealMT 
201livia 
2TheFakeMT 
2TheRealMT 
3TheFakeMT 
4TheFakeMT 
SOlivia 
5TheFakeMT 


5TheRealMT 
6TheFakeMT 


70livia 
8TheRealMT 
90livia 
因为 你 不 能 再 指定 用 户 ID 作为 扫描 咒 的 起 始 键 ， 获 取 任 何 用 户 的 
最 新 n 条 推 帖 现在 都 需要 扫描 整个 时 间 范 围 。 
现在 回顾 一 下 时 间 序 列 数据 的 例子 ， 在 那里 你 增加 了 一 个 salt 数 作 
为 时 间 惟 的 前 绥 来 构成 行 键 。 这 样 做 可 以 在 写 入 时 把 负载 分 布 到 多 个 
region 上 。 当 查找 特定 时 间 区 间 的 数据 时 ， 你 只 需要 基于 所 有 salt 数 扫 
描 多 个 区 间 (salt 数 的 数量 取决 于 RegionServer 的 数量 ) 。 这 是 一 个 利 
用 信息 的 位 置 来 获得 跨 region 分 布 的 经 典 例子 。 
提示 信息 在 行 键 里 的 位 置 和 选择 放 入 什么 信息 同等 重要 。 
到 现在 为 止 ， 我 们 研究 了 HBase 表 设计 的 几 个 概念 。 你 可 能 已 经 觉 
得 信心 百倍 ， 准 备 开 始 搭 建 自 己 的 应 用 系统 了 。 或 许 你 更 想 试 试用 关 
系 型 数据 库 表 建 模 的 知识 作为 镜子 审视 一 下 刚刚 学 到 的 知识 。 下 一 节 
会 对 这 方面 有 所 帮助 。 


4.6 从 关系 型 到 非 关 系 型 


为 了 搭建 应 用 系统 ， 你 可 能 使 用 过 关系 型 数据 库 系统 ， 并 且 涉 及 
模式 设计 。 如 条 不 是 这 样 ， 并 且 你 没有 天 系 型 数据 库 表 景 知识 ， 请 跳 
过 本 市 。 在 进一步 讨论 之 前 ， 我 们 逢 要 强调 以 下 观点 :从 天 系 型 数据 
库 知 识 了 映射 到 HBase 没 有 捷径 ， 它 们 是 不 同 的 思考 方式 。 

如 采 你 发 现 目 己 正在 从 关系 型 数据 库 模式 迁移 到 HBase， 我 们 第 一 
个 建议 是 不 要 迁移 【除非 绝对 必须 ) 。 就 像 我们 说 过 的 ， 关 系 型 数据 
库 和 HBase 古 不 同 的 系统 ， 它 们 拥有 不 同 的 设计 特性 ， 可 以 影响 到 应 用 
系统 的 设计 。 从 关系 型 数据 库 到 HBase 的 草率 迁移 是 一 个 陷阱 。 最 好 的 
结局 是 ， 你 创建 了 一 套 复杂 的 HBase 表 来 实现 关系 型 模式 里 很 简单 的 东 
西 。 最 坏 的 结局 是 ， 你 失去 了 浸 淫 在 关系 型 系统 中 重要 而 巧妙 的 ACID 
保证 。 一 旦 一 个 应 用 系统 是 利用 了 关系 型 数据 库 提供 的 ACID 你 证 搭建 
起 来 的 ， 你 最 好 为 起 楼 灶 ， 重 新 思考 你 的 表 ， 想 想 它们 如 何 实 现 同 样 
的 功能 。 

迄今 为 止 从 天 系 型 系统 映射 到 非 天 系 型 系统 并 不 是 一 个 受到 很 多 
关注 的 主题 。 曾 经 有 值得 注意 的 研究 生 毕 业 论文 ”全 究 过 这 个 主题 。 
在 这 里 我 们 打算 做 一 些 类 比 ， 尽 量 让 学 习 过 程 简单 一 些 。 本 市 我 们 将 
把 关系 型 数据 库 建 模 概念 映射 到 HBase 表 建 模 所 学 习 的 东西 上 去 。 这 些 
概念 不 一 是 是 一 对 一 的 映射 关系 ， 这 些 概 念 正在 发 展 ， 它 们 是 在 越 来 
越 多 的 人 接受 NoSQL 系 统 的 过 程 中 被 定义 出 来 的 。 

4.6.1 一 些 念 


关系 型 数据 库 建 模 包 括 3 个 主要 概念 。 

上 是 实体 (entitie) 映射 到 表 (table) 。 

晶 属性 (attribute) 映射 到 列 (column) 。 

卓 联系 (relationship) 一 一 映射 到 外 键 (foreign-key) 。 


这 3 个 概念 对 应 到 HBase 有 些 复杂 。 

1. 实体 

表 映 射 到 表 。 这 可 能 是 从 天 系 型 数据 库 到 HBase 世 界 的 最 显而易见 
的 映射 。 在 关系 型 数据 库 和 HBase 中 ， 实 体 的 容器 (container) 是 表 ， 
表 中 每 行 代表 实体 的 一 个 实例 。 用 户 表 中 每 行 代表 一 个 用 户 。 这 不 是 
一 个 铁 的 规则 ， 但 这 是 一 个 好 的 起 点 。HBase 人 迫使 你 向 规 疙 化 徘 扰 ， 
此 关系 型 数据 库 中 构成 完整 表 的 许多 东西 最 终 成 为 HBase 中 的 某 些 东 
西 。 很 快 你 就 会 明白 我 们 的 意思 。 

2. 属性 

为 了 把 属性 映射 到 HBase， 必 须 区 分 两 种 (至 少 ) 属性 类 型 。 

晶 识别 属性 (identifying attribute) 这 种 属性 可 以 唯一 地 精确 识 
别 出 实 体 的 一 个 实例 〈 也 就 是 一 行 ) 。 关 系 型 表 里 ， 这 种 属性 构成 表 
的 主键 (primary key) 。HBase 中 ， 这 种 属性 成 为 行 键 (rowkey) 的 一 
部 分 ， 如 在 本 章 前 面 看 到 的 ， 这 是 设计 HBase 表 时 需要 正确 处 理 的 最 重 
要 的 事情 。 

一 个 实体 经 常 是 由 多 个 属性 识别 出 来 的 。 这 一 点 正好 映射 到 关系 
型 数据 库 里 的 复合 键 compound keys) 概念 : 例如 ， 当 你 定义 联系 
时 。 在 HBase 世 界 里 ， 识 别 属性 组 成 行 键 ， 如 你 在 follows 表 的 高 表 版 本 
中 看 到 的 。 把 产生 联系 的 用 户 的 用 户 ID 拼接 起 来 构成 行 键 。HBase 没 有 
复合 键 的 概念 ， 所 以 两 个 识别 属性 都 放 进 行 键 中 。 

使 用 定 长 值 会 让 事情 更 轻松 。 变 长 值 意味 着 你 需要 分 隔 符 和 在 客 
户 端 代 码 中 计算 出 构成 键 的 可 分 解 属性 的 拆 解 逻辑 。 定 长 还 会 让 推导 
起 始 键 和 停止 键 变 得 更 容易 一 些 。 就 像 在 follows 表 所 做 的 ， 获 得 定 长 
值 的 一 种 办 法 是 对 单个 属性 进行 散 列 运算 。 

注意 常见 做 法 是 使 用 多 个 属性 ， 把 它们 作为 行 键 的 一 部 分 ， 行 键 
是 字 太 数组 byte[]。 记 住 ，HBase 丰 关心 数据 类 型 。 


加 非 识别 属性 (non-identifying attribute) 韭 识 别 属性 更 容易 映 
射 。 在 HBase 中 它们 基本 映射 到 列 限定 符 。 对 于 本 书 前 面 建立 的 users 
表 而 言 ， 非 识别 属性 是 诸如 密码 和 电子 邮件 地 址 这 些 东 西 。 这 些 属性 
不 需要 唯一 性 保证 。 

如 本 章 前 面 解释 的 ，HBase 中 每 个 键 值 对 拥有 全 套 坐标 : 行 键 、 列 
族 、 列 限定 符 和 时 间 版 本 。 如 果 你 的 关系 型 数据 库 表 有 宽 行 《 数 十 或 
数 百 列 ) ， 可 能 不 希望 把 每 一 列 在 HBase 中 也 存储 为 一 列 (尤其 是 在 
大 部 分 操作 是 一 次 处 理 一 整 行 的 情况 下 ) 。 相 反 ， 你 会 把 一 行 中 的 所 
有 值 序列 化 成 单个 二 进 制 数据 ， 存 储 为 单个 单元 的 值 。 这 样 硬盘 占用 
会 少 很 多 ， 但 是 这 种 做 法 有 负面 影响 : 原来 行 中 各 列 的 值 现在 是 不 透 
明 的 ， 不 能 使 用 HBase 表 提供 的 坐标 体系 直接 定位 到 原来 的 列 。 当 存储 
空间 (硬盘 和 网 络 IO) 更 为 重要 并 且 访 问 模式 总 是 读 取 整 行 时 ， 这 种 
做 法 是 合理 的 。 

3. 联系 

逻辑 关系 模型 使 用 两 种 主要 联系 : 一 对 多 和 多 对 多 。 在 天 系 型 数 
据 库 中 ， 把 前 者 直接 建 模 为 外 键 (foreign key) (无 论 是 数据 库 显 式 实 
现 为 约束 ， 还 是 隐 式 实现 为 查询 里 的 联结 ) ， 把 后 者 建 模 为 连接 表 

(junction table) ”( 一 种 附加 表 ， 其 中 每 行 代表 两 个 主 表 之 间 的 一 个 联 

系 实例 ) 。 在 HBase 中 没有 这 些 联 系 的 直接 映射 ， 经 常 归 结 为 数据 反 规 
范 化 处 理 。 

需要 注意 的 第 一 件 事情 是 ，HBase 没有 内 建 的 联结 (join) 或 约束 

(constrain) ， 几 乎 不 使 用 显 式 联系 。 你 很 容易 把 一 对 多 性 质 的 数据 放 

进 HBase 表 里 : 一 张 表 存 储 用 户 ， 另 一 张 表 存 储 他 们 的 推 帖 。 但 只 是 前 
表 行 里 的 某 些 部 分 和 后 表 行 键 的 某 些 部 分 正好 有 关联 。HBase 不 知道 
这 种 联系 ， 所 以 需要 你 的 应 用 来 处 理 这 种 联系 (如 果 有 的 话 ) 。 如 同 
前 面 提 人 到 的 ， 如 果菜 个 作业 打算 返回 你 关注 的 所 有 用 户 的 所 有 推 帖 ， 


在 HBase 中 你 不 能 使 用 一 个 联结 或 于 查询 做 到 这 一 点 。 在 SQL 里 ， 可 以 
这 样 做 : 

SELECT * FROM twit WHERE user id IN 

(SELECT user id from followees WHERE follower = me) 
ORDER BY date DESC limit 10; 


相反 ， 在 HBase 中 ， 你 需要 在 系统 外 面 写 代 码 ， 先 遍历 所 有 被 关注 
用 户 ， 然 后 对 每 个 用 户 分 别 执行 HBase 查 表 操 作 来 找到 他 们 的 最 新 推 帖 
(或 者 如 同 前 面 介绍 的 ， 采 用 反 规 范 化 处 理 思 路 ， 为 每 个 粉丝 建立 推 
帖 副 本 ) 。 
就 像 你 看 到 的 ， 除 了 通过 外 部 应 用 实现 的 隐 式 联系 外 ， 在 HBase 中 
没有 办 法 真正 联结 不 同 数据 记录 。 至 少 到 现在 还 没有 办 法 ! 
4.6.2 实 


HBase 一 个 引 人 瞩 目的 特别 之 处 在 于 ， 列 《也 叫做 列 限 定 符 ) 不 需 
要 在 设计 时 预 完 定 义 。 它 们 可 以 是 任何 东西 。 在 之 前 例子 中 ，follows 
表 的 早期 版 本 里 每 个 用 户 有 一 行 ， 每 个 被 关注 对 象 有 一 列 (先是 用 整 
数 计数 右 作 为 列 限 定 符 ， 然 后 是 用 被 关注 用 户 名 字 作 为 列 限定 符 ) 。 
这 代表 了 在 一 个 父 实体 或 主 实体 的 行 里 租 套 男 一 个 实体 的 能 力 〈 见 图 4- 


14) ， 注 意 这 还 远 不 是 一 个 灵活 的 模式 行 (flexible schema row) 。 


HBase 表 


列 族 
固定 限定 符 -> 时 间 蕉 -> 值 
网 套 的 实体 
可 变 限 定 符 -> 时 间 蕉 -> 值 


图 4-14 HBase 表 里 的 骸 套 实体 
航 套 的 实体 是 从 关系 型 映射 到 非 关 系 型 的 又 一 个 工具 : 如 果 你 的 
表 以 父子 、 主 从 或 其 他 严格 的 一 对 多 联系 存在 ， 在 HBase 中 就 可 以 用 
一 个 单行 来 建 模 。 行 键 相当 于 父 实体 。 崩 套 的 值 将 包含 子 实体 ， 在 这 
里 每 个 子 实体 得 到 一 个 包含 识别 属性 的 列 限定 符 ， 以 及 包含 其 他 非 识 
别 属性 的 值 (例如 ， 拼 接 在 一 起 ) 。 子 实体 的 记录 存储 为 单个 列 ( 见 
图 4-15) 。 


HBase 表 


键 属性 1 byte[8] 
键 属 性 2 timestamp 


行 键 


string 
列 2 bytel?] 


图 4-15 HBase 表 可 以 包含 常规 列 ， 也 可 以 包含 藤 父 实体 

在 这 种 模式 下 有 一 个 附加 的 好 处 ， 因 为 在 HBase 中 行 是 事务 你 护 的 
边界 ， 所 以 你 在 父子 记录 上 可 以 得 到 事务 保护 。 因 此 你 可 以 执行 check 
和 和 put 操作， 一 般 来 说 可 以 确保 你 的 所 有 修改 被 封装 在 一 起 ， 要 么 一 起 
提交 要 么 一 起 失败 。 由 于 HBase 列 的 设计 方式 ， 你 可 以 运用 HBase 的 灵 
活性 写 入 秽 套 实体 。 但 HBase 不 一 定 能 够 存储 和 巷 套 的 实体 。 

当然 这 种 技术 有 一 些 局 限 性 。 第 一 ， 这 种 技术 只 能 肉 套 一 层 : 蔡 
套 实 体 上 自身 不 能 再 有 般 套 实体 。 你 仍然 可 以 在 一 个 父 实体 下 有 多 个 不 
同 的 嵌 套 子 实体 ， 用 识别 属性 作为 列 限 定 符 。 

第 二 ， 如 同 本 章 前 面 学 习 的 ， 与 访问 另 一 张 表 的 一 行 相 比 ， 在 一 
行 里 访问 在 租 套 列 限定 符 下 存储 的 单个 值 效 率 不 高 。 


但 是， 有 一 些 没有 选择 的 场景 ， 在 这 种 场景 中 这 种 模式 设计 是 恰 
当 的 。 如 末 你 得 到 子 实体 的 唯一 方法 是 通过 父 实体 ， 并 且 你 布 望 在 一 
个 父 实 体 的 所 有 子 实体 上 有 事务 级 保护 ， 这 种 扩 术 有 是 最 正确 的 选择 。 
至 于 多 对 多 联系 ， 情 况 变 得 有 些 复 洒 。HBase 不 能 帮助 你 做 优化 的 


联结 或 者 类 似 的 事情 ; 而 且 因为 每 个 多 对 多 联系 有 两 个 父亲 ， 你 也 不 
能 通过 磐 套 一 个 实体 的 做 法 处 理 这 种 联系 。 这 种 联系 经 和 转换 为 反 规 
范 化 处 理 ， 如 同 本 章 前 面 follows 表 的 例子 里 所 做 的 。 你 反 规 范 化 处 理 
了 粉丝 联系 ， 这 是 一 种 目 参 照 的 多 对 多 用 户 联系 。 

上 壕 这 些 是 从 关系 型 建 模 知 识 映 射 到 HBase 概 念 的 基本 内 容 。 


但 我 们 还 没有 谈 到 列 族 。 它 在 关系 型 世界 里 没有 对 应 的 概念 ! 在 HBase 
中 列 族 在 一 行 里 包含 不 相干 的 许多 列 ， 它 在 物理 上 高 效 存储 并 且 自 动 
处 理 。 关 系 型 数据 库 不 做 这 样 的 事情 ， 除 非 你 使 用 了 像 Vertica 那 样 的 列 
式 数据 库 或 者 是 商业 关系 型 数据 库 的 专用 分 析 特 性 。 

1.， 列 族 

可 以 把 列 族 理解 为 建 模 了 另 一 种 之 前 没有 提 到 的 联系 : 一 对 一 联 
系 ， 在 这 种 联系 中 你 有 两 张 拥 有 相同 主键 的 表 ， 每 个 主键 在 每 张 表 里 
有 0 或 1 个 行 。 一 个 例子 是 用 户 个 人 信息 (电子 邮件 地 址 、 生 日 等 ) 和 
用 户 系统 参数 《背景 颜色 、 字 体 大 小 等 ) 。 在 关系 型 数据 库 里 通常 把 
这 些 信息 建 模 成 两 张 不 同 的 物理 表 ， 主 要 考虑 是 SQL 语句 几乎 总 是 命 
中 这 张 或 那 张 表 ， 很 少 同时 访问 两 张 表 ， 所 以 分 成 两 张 表 性 能 更 好 。 
(这 在 很 大 程度 上 取决 于 你 在 使 用 什么 数据 库 和 很 多 其 他 因素 ， 但 实 
际 情况 的 确 如 此 。) 

而 在 HBase 中 ， 在 一 张 表 里 使 用 两 个 列 族 正 好 合适 。 同 样 ， 之 前 讨 
论 的 髋 套 实 体 联 系 可 以 轻松 划分 成 不 同 的 列 族 ， 前 提 是 你 不 太 可 能 同 


时 访问 两 个 列 族 。 

一 般 来 说 ， 在 HBase 中 使 用 多 个 列 族 是 一 种 高 级 特性 ， 只 有 当 你 确 
定 知道 这 样 做 的 代价 上 时， 你 才 应 该 使 用 多 个 列 族 。 

2 (没有) 索引 

从 关系 型 迁移 到 HBase 的 男 一 个 常见 问题 是 ， 索引 怎么 办 ? 在 关系 
型 数据 库 中 ， 很 容易 声明 索引 并 且 由 数据 库 引 警 自 动 维护 ， 这 种 能 
是 关系 型 系统 提供 的 最 有 吸引 力 且 最 有 用 的 功能 之 一 。 在 HBase 中 却 
找 不 到 索引 。 直 到 现在 ， 问 题 的 答案 是 : 很 不 幸 ， HBase 没 有 索引 。 

你 可 以 通过 反 规 范 化 处 理 数据 和 写 入 多 张 表 来 获得 这 个 特性 的 一 
些 近似 方法 ， 但 是 别 搞 错 : 当 你 选择 HBase 时 ， 显 然 你 在 放弃 一 个 温 
暖 舒适 的 世界 ， 在 那里 一 个 简单 的 CREATE INDEX 语句 就 可 以 解决 重 
大 的 性 能 问题 。 在 HBase 中 ， 你 不 得 不 预先 解决 所 有 这 些 问 题 ， 在 模 
式 设 计 里 考虑 这 些 访 问 模式 。 

3， 时 间 版 本 

在 关系 型 数据 库 和 非 关 系 型 数据 库 之 间 还 有 最 后 一 个 有 趣 的 不 
同 : 时 间 维 度 。 在 关系 型 模式 里 ， 如 果 把 时 间 戳 显 式 存储 在 某 个 地 
方 ， 许 多 情况 下 这 可 以 归 类 为 在 HBase 单 元 中 使 用 的 时 间 戳 。 注 意 ， 关 
系 型 系统 时 间 惟 只 是 数据 类 型 long， 因 此 如 果 你 需要 的 不 仅仅 是 64 位 
long 类 型 的 UNIX 时 代 的 时 间 戳 ， 可 以 试 坛 HBase 的 时 间 戳 UNIX 时 
间 戳 可 能 不 适合 在 原子 弹 模 拟 中 存储 时 间 粒 度 ) 。 

更 大 的 好 处 是 ， 你 的 应 用 系统 现在 可 以 考虑 放弃 在 表 里 存储 数据 
值 历史 版 本 的 做 法 (在 一 种 叫做 历史 表 的 关系 型 模式 里 ， 通 常 使 用 和 
主 表 相同 的 主键 外 加 一 个 时 间 戳 ， 来 保存 基于 时 间 的 行 的 副本 ) : 欢 
呼 吧 ! 你 可 以 扔 掉 那 种 思春 的 做 法 了 ， 代 之 以 一 个 HBase 实 体 ， 只 需要 
在 列 族 元 数据 里 设 定 合理 保存 的 时 间 版 本 数量 就 可 以 了 。 这 种 情况 在 
HBase 里 大 大 得 到 简化 。 关 系 模型 的 原始 架构 设计 里 没有 把 时 间 看 做 关 


系 模型 的 一 个 特殊 维度 ， 但 是 让 我 们 在 HBase 中 面 对 它 : 时 间 是 一 个 维 
度 。 

我 们 希望 你 市 着 多 年 学 习 关 系 型 数据 库 设计 的 知识 转向 HBase 时 感 
觉 展 好。 如果 你 理解 逻辑 建 模 的 基本 原理 ， 并 且 知 道 在 HBase 中 可 用 的 
模式 维度 ， 你 就 有 机 会 保持 自己 的 设计 意图 。 


4.7 列 族 高 级 配置 


HBase 有 几 个 高 级 特性 ， 在 设计 表 时 可 以 使 用 。 这 些 特性 不 一 定 联 
系 到 模式 或 行 键 设 计 ， 但 是 它们 定义 了 表 的 行为 的 某 些 方面 。 本 市 我 


HFile 数 据 块 大 小 可 以 在 列 族 层 次 设置 。 这 个 数据 块 不 同 于 之 前 谈 
到 的 HDFS 数 据 块 。 其 默认 值 是 65 536 字 节 ， 即 64 KB。 数 据 块 索引 存 
储 每 个 HFile 数据 块 的 起 始 键 。 数 据 块 大 小 配置 会 影响 数据 块 索引 的 大 
小 。 数 据 块 越 小 ， 索 引 越 大 ， 因 而 占用 的 内 存 空间 越 大 。 同 时 ， 因 为 
加 载 进 内 存 的 数据 块 更 小 ， 随 机 查找 性 能 更 好 。 但 是 如 果 你 需要 更 好 
的 顺序 扫描 性 能 ， 那 么 一 次 能 够 加 载 更 多 HFile 数 据 进入 内 存 则 更 为 合 
理 ， 这 意味 着 数据 块 大 小 应 该 设置 为 更 大 的 值 。 相 应 地 索引 变 小 ， 你 
将 在 随机 读 性 能 上 付出 代价 。 

你 可 以 在 表 实 例 化 时 设置 数据 块 大 小 ， 如 下 所 示 : 


hbase (main) :002:0> create ‘mytable', 
{NAME => 'colfaml', BLOCKSIZE => '65536'} 


4.7.2 2 


把 数据 放 进 读 缓存 ， 但 工作 负载 却 经 常 不 能 从 中 获得 性 能 提升 。 
例如 ， 如 有 果 一 张 表 或 表 里 的 列 族 只 被 顺序 扫描 访问 或 者 很 少 被 访问 ， 


你 不 会 介意 Get 或 Scan 花费 时 间 是 否 有 点 儿 长 。 在 这 种 情况 下 ， 你 可 以 
选择 关闭 那些 列 族 的 缓存 。 如 有 果 只 是 执行 很 多 顺序 扫描 ， 你 会 多 次 倒 
腾 缓 存 ， 并 且 可 能 会 滥用 缓存 把 应 该 放 进 缓存 获得 性 能 提升 的 数据 给 
排挤 出 去 。 关 闭 缓 存 不 仅 可 以 避免 上 述 情 况 发 生 ， 而 且 可 以 让 出 更 多 
缓存 给 其 他 表 和 同一 表 的 其 他 列 族 使 用 。 

数据 块 缓存 默认 是 打开 的 。 你 可 以 在 新 建 表 或 者 更 改 表 时 关闭 


三 


hbase (main) :002:0> create 'mytable', 
{NAME => 'colfaml', BLOCKCACHE => 'false’)} 


4.7.3 激进 缓存 


你 可 以 选择 一 些 列 族 ， 赋 予 它们 在 数据 块 缓存 里 有 更 高 的 优先 级 
(LRU 缓 存 ) 。 如 果 你 预期 一 个 列 族 比 另 一 个 列 族 的 随机 读 更 多 ， 这 
个 特性 迟早 用 得 上 。 这 个 配置 也 是 在 表 实 例 化 时 设 定 : 

hbase (main) :002:0> create 'mytable', 

{NAME => 'colfaml', IN MEMORY => 'true') 

IN_MEMORY 参 数 的 默认 值 是 false。 因 为 HBase 除 了 在 数据 块 缓存 
里 保存 这 个 列 族 相 比 其 他 列 族 更 激进 之 外 并 不 提供 额外 的 保证 ， 所 以 
该 参数 在 实践 中 设置 为 true 不 会 变化 太 大 。 

4.7.4 | 


数据 块 索 引 提 供 了 一 种 有 效 的 方法 ， 在 访问 一 个 特定 的 行 时 用 来 
查找 应 该 读 取 的 HFile 的 数据 块 。 但 是 它 的 效用 很 有 限 。HFile 数据 块 
的 默认 大 小 是 64 KB， 这 个 大 小 不 能 调整 太 多 。 

如 果 要 查找 一 个 短 行 ， 只 在 整个 数据 块 的 起 始 行 键 上 建立 索引 是 
无 法 给 你 细 粒 度 的 索引 信息 的 。 例 如 ， 如 果 你 的 行 占 用 100 字 节 存储 空 
间 ， 一 个 64 KB 的 数据 块 包含 (64x 1024)/100 = 655.53 = 一 700 行 ， 而 你 
只 能 把 起 始 行 放 在 索引 位 上 。 你 要 查找 的 行 可 能 落 在 特定 数据 块 的 区 


间 里 ， 但 也 不 是 肯定 在 那个 数据 块 上 。 这 有 多 种 可 能 的 情况 ， 或 者 该 
行 在 表 里 不 存在 ， 或 者 该 行 在 另 一 个 HFile 里 ， 甚 至 在 MemStore 里 。 在 
这 些 情况 下 ， 从 硬盘 读 取 数据 块 会 市 来 IO 开销 ， 也 会 滥用 数据 块 组 
存 。 这 会 影响 性 能 ， 尤 其 是 当 你 面 对 一 个 巨大 的 数据 集 并 且 有 很 多 并 
发 读 用 户 时 。 

布 隆 过 滤器 允许 对 存储 在 每 个 数据 块 的 数据 做 一 个 反问 测 试 。 当 
某 行 被 请 求 时 ， 先 检查 布 隆 过 滤器 ， 看 看 该 行 是 否 不 在 这 个 数据 块 
中 。 布 隆 过 滤 妖 要 么 确定 回答 该 行 不 在 ， 要 么 回答 它 不 知道 。 这 就 是 
为 什么 称 它 是 反问 测试 。 布 隆 过 滤 颖 也 可 以 应 用 到 行 中 的 单元 上 。 当 
访问 某 列 限定 符 时 先 使 用 同样 的 反 回 测试 。 

布 隆 过 滤器 也 不 是 没有 代价 的 。 存 储 这 个 额外 的 索引 层 会 占用 和 额 
外 的 空间 。 布 隆 过 滤 絮 随 大 它们 索引 的 对 象 数 据 增长 而 增长 ， 所 以 行 
级 布 隆 过 滤器 比 列 限 定 符 级 布 隆 过 滤 希 占用 空间 要 少 。 当 空间 不 是 问 
题 时 ， 它 们 可 以 帮助 你 “梅干 系统 的 性 能 湾 力 。 

你 可 以 在 列 族 上 局 用 布 隆 过 滤器 ， 如 下 所 示 : 

hbase (main) :007:0> create '‘'mytable', 

{NAME => 'colfaml', BLOOMFILTER => 'ROWCOL'} 

BLOOMFILTER 参 数 的 默认 值 是 NONE。 一 个 行 级 布 隆 过 滤器 用 
ROW 局 动 ， 列 限定 符 级 布 隆 过 滤 强 用 ROWCOL 局 动 。 行 级 布 隆 过 滤 
希 在 数据 块 里 检查 特定 行 键 是 否 不 存在 ， 列 限定 符 级 布 隆 过 滤器 检查 
行 和 列 限 定 符 组 合 是 否 不 存在 。ROWCOL 布 隆 过 滤器 的 开销 高 于 ROW 
布 隆 过 滤 妖 。 


4.7.5 生存 时 间 (TTL) 
应 用 系统 经 常 需要 从 数据 库 里 删除 老 数 据 。 因 为 数据 库 很 难 超过 
某 种 规模 ， 所 以 传统 上 数据 库 内 置 了 许多 灵活 的 处 理 办 法 。 例 如 ， 在 
TwitBase 里 你 不 想 删 除 用 户 在 使 用 应 用 系统 期 间 生 成 的 任何 推 帖 。 这 些 


都 是 用 户 生 成 的 数据 ， 将 来 某 一 天 执行 一 些 高 级 分 析 时 可 能 有 用 。 但 
是 并 不 需要 保持 所 有 推 帖 都 能 实时 访问 。 所 以 ， 早 于 某 个 时 间 的 推 帖 
可 以 归档 存放 到 平面 文件 里 。 
HBase 可 以 让 你 在 数秒 内 在 列 族 级 设置 一 个 TTL。 早 于 指定 TTL 
值 的 数据 在 下 一 次 大 合并 时 会 被 删除 。 如 有 果 你 在 同一 单元 上 有 多 个 时 
间 版 本 ， 早 于 设 定 TIL 的 版 本 会 被 删除 。 你 可 以 禁用 TTL， 或 者 通过 
设置 其 值 为 INTMAX_VALUE (2147483647) 让 它 永远 启用 (这 是 默认 
值 )。 你 可 以 在 建 表 时 设置 TTL， 如 下 所 示 : 
hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', TTL => '18000')} 
该 命令 在 colfaml 列 族 上 设置 TIL 为 18 000 秒 ， 即 5 小 时 。 
colfam1 中 超过 5 小 时 的 数据 将 会 在 下 一 次 大 合并 时 被 删除 。 


4.7.6 压缩 


HFile 可 以 被 压缩 并 存放 在 HDFS 上 。 这 有 助 于 节省 硬盘 IO， 但 是 
读 写 数据 时 压缩 和 解压 缩 会 抬 高 CPU 利用 率 。 压 缩 是 表 定 义 的 一 部 
分 ， 可 以 在 建 表 或 模式 改变 时 设 定 。 我 们 推荐 你 启用 表 的 压缩 ， 除 非 
你 确定 不 会 从 压缩 中 受益 。 只 有 在 数据 不 能 被 压缩 或 者 因为 某 种 原因 
服务 器 的 CPU 利用 率 有 限制 要 求 的 情况 下 ， 有 可 能 会 禁用 压缩 特性 。 

HBase 可 以 使 用 多 种 压缩 编码 ， 包 括 LZO、Snappy 和 GZIP。LZO 
[6 和 Snappy- 纪 是 其 中 最 流行 的 两 种 。Snappy 在 2011 年 由 Google 发 布 ， 
发 布 不 入 ，Hadoop 和 HBase 项 目 束 开 始 提供 文 持 。 在 此 之 前 ， 选 择 的 是 
LZO 编 码 。Hadoop 使 用 的 LZO 原 生 库 受 GPLv2 版 权 控 制 ， 不 能 放 在 
Hadoop 和 HBase 的 任何 发 行 版 里 ， 必 须 单独 安装 。 但 是 ，Snappy 拥 有 
BSD 许 可 (BSD-licensed) ， 所 以 更 容易 与 Hadoop 和 HBase 发 行 版 捆绑 
在 一 起 。LZO 和 Snappy 的 压缩 比例 和 压缩 /解压 缩 速度 差不多 。 

建 表 时 ， 你 可 以 在 列 族 上 启用 压缩 ， 如 下 所 示 : 


hbase (main) :002:0> create 'mytable' ， 
{NAME => 'colfaml', COMPRESSION => 'SNAPPY') 
注意 ， 数 据 只 在 硬盘 上 是 压缩 的 ， 在 内 存 里 (MemStore 或 
BlockCache) 或 通过 网 络 传输 时 是 没有 压缩 的 。 
改变 压缩 编码 的 做 法 不 应 该 经 常 发 生 ， 但 是 如 果 的 确 需要 改变 某 
个 列 族 的 压缩 编码 ， 直 接 做 就 可 以 。 你 需要 更 改 表 定 义 ， 设 定 新 的 压 
缩编 码 。 此 后 合并 时 ， 生 成 的 HFile 全 部 会 采用 新 编码 压缩 。 这 个 过 程 
不 需要 创建 新 表 和 复制 数据 。 但 你 要 确保 ， 直 到 改变 编码 后 ， 所 有 旧 
的 HFile 被 合并 后 才能 从 集群 中 删除 上 昌 的 编码 函数 库 。 
4.7.7 单元 时 站 


在 默认 情况 下 HBase 每 个 单元 维护 3 个 时 间 版 本 。 这 个 属性 是 可 以 
设置 的 。 如 果 只 需要 一 个 版 本 ， 推 荐 你 在 设置 表 时 只 维护 一 个 版 本 。 
这 样 系统 残 不 会 保留 你 更 新 的 单元 的 多 个 时 间 版 本 了 “。 时 间 版 本 也 是 
在 列 族 级 设置 的 ， 可 以 在 表 实 例 化 时 设 定 : 
hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', VERSIONS => 1)} 


你 可 以 在 同一 个 create 语 句 里 为 列 族 指 定 多 个 属性 ， 如 下 所 示 : 
hbase (main) :002:0> create 'mytable', 
{NAME => 'colfaml', VERSIONS => 1, TTL => '18000'} 


你 也 可 以 指定 列 族 存储 的 最 少时 间 版 本 数 ， 如 下 所 示 : 
hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', VERSIONS => 5, 
MIN VERSIONS => '1'} 


在 列 族 上 同时 设 定 TIL 人 迟早 也 是 有 用 的 。 如 果 当 前 存储 的 所 有 时 
间 版 本 都 早 于 TTL， 那 么 至 少 MIN_VERSION 个 最 新 版 本 会 保留 下 来 。 
这 样 确保 在 你 做 查询 时 所 有 数据 早 于 TITL 时 还 有 结果 返回 。 


4.8 过 滤 数 据 


到 现在 为 上 上， 你 已 了 解 到 HBase 拥 有 有 灵活 的 逻辑 模式 和 人 简单 的 磁盘 
布局 ， 它 们 允许 应 用 系统 的 计算 工作 更 接近 硬盘 和 网 络 ， 并 在 这 个 层 
次 上 进行 优化 。 设 计 有 效 的 模式 是 使 用 HBase 的 一 个 方面 ， 你 已 经 掌握 
了 一 堆 概 念 用 来 做 到 这 一 点 。 你 可 以 设计 行 键 ， 让 访问 的 数据 在 硬盘 
上 也 存放 在 一 起 ， 以 便 读 写 操作 时 可 以 节省 人 硬盘 寻 道 时 间 。 在 读 取 数 
据 时 ， 你 经 常 需要 基于 某 种 标准 进行 操作 ， 你 可 以 进一步 优化 数据 访 
问 。 过 滤 絮 就 是 在 这 种 情况 下 使 用 的 一 种 强大 的 功能 。 

我 们 还 没有 谈 到 过 滤器 的 真实 使 用 场景 ， 一 般 来 说 ， 调 整 表 设 计 
束 可 以 优化 访问 模式 的 。 但 是 ， 有 时 你 已 经 把 表 设 计 调 整 得 尽 可 能 好 
了 ， 也 尽 可 能 针对 不 同 访问 模式 做 了 优化 。 当 你 仍然 需要 减少 返回 客 
户 端的 数据 时 ， 这 束 是 考虑 使 用 过 滤 硕 的 时 候 了 。 有 时 候 过 滤器 也 被 
称 为 下 推 判 断 硕 (push-down predicate) ， 支 持 你 把 数据 过 滤 标 准 从 客 
户 端 下 推 到 服务 器 ( 见 图 4-16) 。 这 些 过 滤 逻 辑 在 读 操作 时 使 用 ， 对 返 
回 给 客户 端的 数据 有 有 影响。 这样 可 以 通过 减少 网 络 传输 的 数据 来 节省 
网 络 IO。 但 是 数据 仍然 需要 从 硬盘 读 进 RegionServer， 过 滤器 只 是 在 
RegionServer 里 发 挥 作用 。 因 为 你 有 可 能 在 HBase 表 里 存储 了 大 量 数 
据 ， 所 以 网 络 IO 的 节省 是 有 重要 意义 的 ， 并 且 先 读 出 全 部 数据 送 到 客 
户 问 再 过 滤 出 有 用 的 数据 ， 这 种 做 法 开销 很 大 。 

HBase 提 供 了 一 个 API， 你 可 以 用 它 来 实现 定制 过 滤 絮 。 多 个 过 滤 
名 也 可 以 捆绑 在 一 起 使 用 。 可 以 在 读 过 程 最 开始 的 地 方 ， 基 于 行 键 进 
行 过 滤 处 理 。 此 后 ， 也 可 以 基于 HFile 读 出 的 KeyValues 进行 过 滤 处 
理 。 过 滤器 必须 实现 HBase JAR 包 中 的 Filter 接 口 ， 或 者 扩展 一 个 实现 
了 该 接口 的 抽象 类 。 我 们 推荐 扩展 FilterBase 抽象 类 ， 这 样 你 就 不 需要 
写 样板 代码 。 扩 展 其 他 类 (如 CompareFilter 类 ) 也 是 一 个 选择 ， 同 样 可 
以 正常 工作 。 当 读 取 一 行 时 该 接口 有 下 面 几 个 方法 ， 可 以 在 多 个 地 方 
调用 (顺序 如 图 4-17 所 示 ) 。 它 们 总 是 按照 下 面 描述 的 顺序 来 执行 。 

(1) 这 个 方法 第 一 个 被 调用 ， 基 于 行 键 执行 过 渡 : 


boolean filterRowKey (byte [] buffer, int offset, int length) 
基于 这 里 的 逻辑 ， 如 果 行 需要 被 过 滤 掉 (不 出 现在 发 送 结果 集合 
里 ) 返回 true; 和 否则， 如 果 需 要 发 送 给 客户 端 则 返回 false。 


客户 端 过 滤 服务 器 端 过 滤 
辽 Region 
Kyl Server 


Region 
Server 
bl Region 
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Al Server 
FA Region 
Led oy 
Fl Server 


回答 你 的 
查询 


只 发 送 符合 
滤器 标准 的 数据 过 滤器 
任何 时 候 都 发 送 全 部 数据 


图 4-16 在 客户 病 完 成 数据 过 滤 ， 即 从 RegionServer 把 数据 读 取 到 客 


户 端 ， 在 客户 端 使 用 过 滤 响 逻辑 处 理 数 据 ; 或 者 在 服务 器 端 完成 数据 
过 滤 ， 即 把 过 滤 逻 辑 下 推 到 RegionServer， 因 此 减少 了 在 网 络 上 传输 到 
客户 端的 数据 量 。 实 质 上 过 滤器 可 以 节省 网 络 IO 的 开销 ， 有 时 甚至 是 
硬盘 IO 的 开销 

(2) 如 果 该 行 没 有 在 上 一 步 被 过 滤 掉 ， 接 着 调用 这 个 方法 处 理 当 
前 行 的 每 个 KeyValue 对 象 : 

ReturnCode filterKeyValue (KeyValue v) 

这 个 方法 返回 一 个 ReturnCode， 这 是 在 Filter 接 口中 定义 的 一 个 枚 

举 (enum) 类 型 。 返 回 的 ReturnCode 用 于 判断 该 KeyValue 对 象 将 要 发 
生化 么 * 

(3) 在 第 2 步 过 滤 Keyvalues 对 象 后 ， 接 着 是 这 个 方法 : 

void filterRow(List<KeyValue> kvs) 

这 个 方法 被 传 入 成 功 通 过 过 滤 的 KeyValue 对 象 列表 。 倘 若 这 个 方 

法 访问 到 这 个 列表 ， 此 时 你 可 以 在 列表 里 的 元 素 上 执行 任何 转换 或 运 


算 。 

(4) 如 果 你 选择 过 滤 掉 某 些 行 ， 此 时 这 个 方法 再 一 次 提供 了 
做 的 机 会 : 

boolean filterRow() 
返回 true 将 过 滤 掉 正在 计算 的 行 。 
(5) 可 以 在 过 滤器 里 构建 逻辑 来 提 字 停止 次 扫 摘 。 你 可 以 把 该 
逻辑 放 进 这 个 方法 : 
boolean pte nas 

当 扫 摘 很 多 行 ， 在 行 键 、 列 限定 符 或 单元 值 里 查找 指定 东西 时 ， 
一 旦 找到 目标 ， ee 本 了 。 此 时 使 用 这 个 方法 很 方 
便 。 这 是 过 滤 流 程 中 最 后 调用 的 方法 。 

基于 单个 KeyValue 对 象 


从 region 基于 行 键 进行 过 滤 吗 ? 进行 
里 取出 下 一 行 [filterRowKey(..)] 人 (..)] 


过 滤 掉 所 有 
剩 下 的 行 ? 


最 后 一 次 过 滤 在 成 功 通过 过 滤 的 
掉 行 的 机 会 KeyValue 对 象 上 进行 转换 


[filterRow!())]) [filterRow(..)] 


添加 到 发 送 回 客户 端的 结果 里 
图 4-17 过 滤 流 程 的 各 个 步骤 。 扫 描 帮 对 象 扫 描 某 个 范围 里 的 每 行 
都 会 执行 这 个 流程 
男 一 个 有 用 的 方法 是 reset()。 它 会 重 置 过 滤器 ， 在 被 应 用 到 整 行 后 
由 服务 句 调 用 。 
注意 这 个 API 很 强大 ， 但 是 我 们 不 觉得 应 该 在 应 用 系统 里 大 量 使 
用 。 许 多 情况 下 ， 如 果 模 式 设计 改变 了 ， 使 用 过 滤器 的 需求 也 会 改 


4.8.1 实现 一 个 过 滤器 

在 一 直 搭 建 的 TwitBase 里 ， 随 着 应 用 系统 变 得 成 熟 和 获得 更 多 用 
户 ， 你 意识 到 ， 对 于 新 用 户 ， 使 用 的 密码 长 度 策略 不 足以 保证 密码 安 
全 ， 需 要 实施 一 种 新 的 密码 策略 ， 虽 然 很 简单 : 现在 TwitBase 要 求 所 有 
用 户 的 密码 长 度 至 少 大 于 4 个 字符 。 这 个 新 策略 新 老 用 户 同样 适用 。 为 
了 对 老 用 户 实 施 这 个 密码 策略 ， 你 需要 检查 用 户 的 整个 列表 ， 检 查 他 
们 的 密码 长 度 。 如 果 密 码 长 度 少 于 4 个 字符 ， 密 码 将 会 失效 ， 你 将 会 
发 送 通 知 给 用 户 ， 告 知 他 们 新 的 密码 策略 ， 并 且 告 知 他 们 需要 采取 的 
行动 : 重 置 为 至 少 6 个 字符 长 的 密码 。 

你 可 以 使 用 一 个 检查 单元 值 长 度 的 定制 过 滤器 来 实现 这 一 点 。 这 
个 过 滤器 可 以 被 应 用 到 一 次 扫描 里 (或 是 一 个 MapReduce 作 业 ) ， 其 输 
出 只 包括 需要 给 其 发 送 密码 更 改 通知 的 用 户 。 其 输出 内 容 包括 用 户 
名 、 用 户 ID 和 电子 籽 件 地 址 。 你 可 以 执行 一 次 扫 擅 来 实现 它 ， 也 可 以 
轻易 把 扫 撒 转换 为 一 个 MapReduce 作 业 。 

你 需要 构建 的 过 滤器 只 关心 密码 的 单元 值 ， 不 关心 其 他 ， 这 个 过 
滤 逻 辑 适 合 采 用 filterKeyValue(..) 方 法 ， 使 用 该 方法 检查 密码 的 列 。 如 
果 密 码 长 度 低 于 最 小 要 求 ， 该 行 被 收入 到 结果 集合 里 ， 否则 该 行 被 过 
滤 掉 。 该 行 的 收入 /过 滤 操 作 由 filterRow(0) 方 法 完成 ， 如 代码 清单 4-1 所 
示 。 

代码 清单 4-1 实现 一 个 定制 过 滤器 来 检查 密码 长 度 


public class PasswordStrengthFilter extends FilterBase { 扩展 FilterBase 抽 


private int len; 象 类 的 定制 过 滤器 
private boolean filterRow = false; 


public PasswordStrengthFilter() { 


super () ; 构造 函数 采用 密码 Te 
} 长 度 作为 输入 参数 检查 密码 长 度 : 如 果 密 
了 长 = 昆 有 
public PasswordStrengthFilter(int len) { Rs 
pe 长 度 ， 该 行 被 过 滤 掉 ， 
该 方法 把 filterRow 
AE Y 
public ReturnCode filterKeyValue (KeyValue v) { —— 布尔 变量 设置 为 true 
if (Bytes.toSstring(v.getQualifier()) .equals (Bytes.toString (UsersDAO. 
PASS COL))) { 
if(v.getValueLength() >= len) 在 返回 给 客户 端的 数 
this.filterRow = true; 据 集 里 排除 密码 列 
return ReturnCode.sKIP; 


} 


return ReturnCode.INCLUDE; 


| 告知 该 行 是 否 
要 被 过 滤 掉 
public boolean filterRow() { 
return this.filterRow; 
} 关 
public void reset() { 行 后 , 重 置 过 滤 各 的 状态 


this.filterRow = false; 


} 


// Other methods that need implementation. See source code. 


为 了 安装 定制 过 滤器 ， 必 须 先 把 它们 编译 为 JAR 包 ， 然 后 放 入 
HBase 的 类 路 径 ， 以 便 在 RegionServer 启 动 时 加 载 它 们 。 对 于 一 个 运行 
中 的 系统 ， 不 得 不 重启 集群 。 你 刚 编 写 的 定制 过 滤器 在 GitHub 项 目 里 
可 以 得 到 ， 在 HBaseIA.TwitBase.filters 包 里 ， 名 字 是 
PasswordStrengthFilter。 为 了 编译 该 JAR， 在 项 目的 顶级 目录 下 ， 执 行 
下 面 命 令 : 

mvn install 

cp target/twitbase-1.0.0.jar /my/folder/ 

现在 ， 编 辑 $HBASE_HOME/conf 目录 下 的 hbase-env.sh 文件 ， 把 
创建 的 JAR 的 路 径 放 进 类 路 径 变量 里 。 
export HBASE CLASSPATH=/my/folder/twitbase-1.0.0.jar 

重启 HBase 进 程 。 


这 个 过 滤器 可 以 在 一 次 扫 摘 里 使 用 ， 如 下 所 示 : 
HTable t = new HTable (UsersDAO.TABLE NAME); 
Scan Scan = new Scan(); 
scan.addColumn (UsersDAO.INFO FAM, UsersDAO.PASS COL),; 
scan.addColumn (UsersDAO.INFO FAM, UsersDAO.NAME COL).,; 
scan.addColumn (UsersDAO.INFO FAM, UsersDAO.EMAIL COL), 
Filter f = new PasswordStrengthFilter(4).; 
scan.setrFilter (f); 


这 种 用 法 会 过 滤 掉 所 有 密码 长 度 大 于 等 于 4 个 字符 的 行 ， 返 回 密码 
不 符合 最 小 长 度 要 求 的 用 户 的 名 字 和 电子 邮件 。 因 为 密码 字段 的 
KeyValue 对 象 在 过 滤器 里 被 排除 了 ， 它 不 会 被 返回 。 

这 段 代码 在 同一 项 目的 PasswordStrengthFilterExample 类 里 可 以 得 
到 。 为 了 运行 这 段 代码 ， 要 执行 下 面 的 命令 : 
java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.filters.PasswordStrengthrFilterExample 


4.8.2 预 装 过 ; 


HBase 随 机 预 装 了 很 多 过 滤器 ， 所 以 你 可 能 不 用 目 己 去 实现 。 为 了 
获取 预 装 过 滤器 的 完整 列表 ， 我 们 建议 你 看 看 javadocs。 这 里 我 们 介绍 
一 些 较为 常用 的 过 滤器 。 

1. 行 过 滤器 

行 过 滤器 (RowFilter) 是 一 种 预 装 的 比较 过 滤器 ， 文 持 基 于 行 键 
过 滤 数 据 。 你 可 以 执行 精确 匹配 、 子 字符 串 匹 配 或 正则 表达 式 匹 配 ， 
过 滤 掉 不 匹配 的 数据 。 为 了 实例 化 RowEFilter， 需 要 提供 比较 操作 符 和 
希望 比较 的 值 。 其 构造 画 数 如 下 所 示 : 


public RowFilter (CompareOp rowCompareOp, 
WritableByteArrayComparable rowComparator) 


比较 操作 从 在 CompareOp 里 指定 ， 这 是 一 个 在 CompareFilter 抽 象 类 
里 定义 的 enum 类 型 ， 可 以 选择 下 面 的 值 。 
上 四 LESS 一 一 检查 是 否 小 于 比较 锅 里 的 值 。 


mLESS_ OR EQUAL 分 查 是 否 小 于 或 等 于 比较 器 里 的 值 。 

nm EQUAL 全 查 是 否 等 于 比较 器 里 的 值 。 

nm NOT_EQUAL 分 查 是 否 不 等 于 比较 器 里 的 值 。 

四 GREATER_OR_EQUAL 分 查 是 否 大 于 或 等 于 比较 硕 里 的 
值 。 

m GREATER 全 查 是 否 大 于 比较 器 里 的 值 。 

国 NO_OP- ”默认 返回 false， 因 此 过 滤 掉 所 有 东西 。 

比较 器 需要 扩展 WritableByteArrayComparable 抽 象 类 。 可 用 的 预 装 
比较 器 类 型 有 以 下 几 种 。 


BinaryComparator 


使 用 Bytes.compareTo0) 方 法 比较 。 
加 BinaryPrefixComparator 一 一 使 用 Bytes.compareTo() 方 法 ， 从 左 开 
台 执行 基于 前 绥 的 字 和 级 比较 。 

检查 给 定 值 是 否 为 空 。 

执行 按 位 比较 。 

把 传递 的 值 与 比较 絮 实 例 化 时 提供 的 


NullComparator 


国 BitComparator 


@ RegexStringComparator 
正则 表达 式 比较 。 
国 SUbstringComparator 
包含 比较 名 提供 的 子 字 符 串 。 
下 面 症 如 何 使 用 行 过 滤 右 的 一 些 例子 : 
使 用 正则 表达 式 比 较 行 键 


Filter myFilter = new RowFi1lLter (CompareFi1lLter.CompareOp.EQURAL， 4 
new RegexStringComparator(".*foo")),; 


执行 contains() 方 法 ， 检 查 传递 的 值 是 否 


检查 行 键 是 
否 包含 给 定 
的 子 字符 串 


Filter myFilter = new RowFilter (CompareFilter.CompareOp.EQUAL, < 一 
new SubstringComparator ("foo") ) ; 


Filter myFilter = new RowFilter (CompareFilter.CompareOp.GREATER OR EQUAL, 艺 


new BinaryComparator ("row10")); i 
检查 行 键 是 否 大 于 提供 的 值 


2， 有 前缀 过 滤器 
这 是 RowFilter 的 一 种 特例 。 它 基于 行 键 的 前 级 值 进行 过 滤 。 它 相 
当 于 给 扫描 构造 函数 Scan(byte[] startRow, byte[] stopRow) 提 供 了 一 个 停 


止 键 ， 只 是 你 不 需要 自己 计算 停止 键 (stopRow) 。 如 果 考 虑 到 字 节 数 
组 的 洪 出 问题 ， 有 时 正确 计算 停止 键 还 是 有 些 复杂 的 ， 所 以 这 个 过 滤 
器 是 有 价值 的 。 前 级 过 滤器 (PrefixFilter) 还 没有 智能 到 能 直接 跳 到 第 
一 个 匹配 的 起 始 键 (startRow) ， 所 以 务必 提供 起 始 键 。 但 它 计算 停止 
链 时 足够 智能 ， 一 旦 发 现 不 匹配 前 级 的 第 一 个 行 链 就 会 停止 扫描 。 

使 用 前 级 过滤 副 ， 如 下 所 示 : 


只 返回 以 字母 a 开头 的 行 


String prefix = an; 
Scan Scan = new Scan (Prefix.getBytes () ) ; 
scan.setFilter(new PrefixFilter (prefix.getBytes())).;， 


3. 限定 符 过 滤 絮 
限定 符 过 滤器 (QualifierFilter) 是 一 种 类 似 于 行 过 滤器 
(RowFilter) 的 比较 过 滤器 ， 不 同 之 处 是 它 用 来 匹配 列 限定 符 而 不 是 
行 键 。 它 使 用 与 行 过 滤 絮 相同 的 比较 运算 从 和 比较 器 类 型 。 还 有 一 个 
匹配 列 族 名 的 过 滤器 ， 但 它 不 像 限定 符 过 滤器 这 么 有 趣 。 而 且 ， 你 可 
以 把 scan 或 get 运 算 限 制 到 特定 列 族 。 
使 用 限定 符 过 滤 右 ， 如 下 所 示 : 


返回 列 限 定 符 小 于 等 于 colqual20 
的 KeyValue 对 象 


Filter myFilter = new QualifierFilter (CompareFilter.CompareOp.LESS OR EQUAL,4 
new BinaryComparator (Bytes.toBytes ("colqual20"))); 


与 scan 类 似 ， 你 可 以 在 Get 对 象 上 应 用 任何 过 滤器 ， 但 是 不 是 所 有 
过 滤 需 都 是 合理 的 。 

例如 ， 基 于 行 键 过 滤 Get 是 没有 意义 的 。 但 是 ， 你 可 以 在 Get 里 使 
用 限定 符 过 滤器 过 滤 出 需要 返回 的 列 。 

4. 值 过 滤 右 

值 过 滤器 (ValueFilter) 提供 了 与 行 过 滤器 或 限定 符 过 滤器 一 样 的 
功能 ， 只 是 针对 的 是 单元 值 。 使 用 这 个 过 滤 占 可 以 过 滤 挥 不 从 合 设 十 
标准 的 所 有 单元 : 


过 滤 掉 单元 值 不 是 以 foo 开 
头 的 列 
Filter myFilter = new ValueFilter (CompareFilter.CompareoOp .EQURAL， < 一 一 
new BinaryPrefixComparator (Bytes .toBytes ("foo") ) ) ; 


5. 时间 稚 过 滤 吉 

时 间 惟 过 滤器 (TimestampsFilter) 允许 针对 返回 给 客户 端的 时 间 
版 本 进行 更 细 粒 度 的 控制 。 你 可 以 提供 一 个 应 该 返回 的 时 间 惟 的 列 
表 ， 只 有 与 时 间 玲 匹配 的 单元 才 可 以 返回 。 

当做 多 行 扫描 或 者 单行 检索 时 ， 如 果 你 需要 一 个 时 间 区 间 ， 可 以 
在 Get 或 Scan 对 象 上 使 用 setTimeRange(..) 方 法 来 实现 这 一 点 。 另 一 方 
面 ， 这 种 过 滤 需 可 以 让 你 指定 应 该 匹配 鸭 时 间 惟 列表: 


List<Long> timestamps = new ArrayList<Long>(); <—— 口 半 ny 
timestamps.add (100L); 只 返回 时 间 蕉 为 100、200 


timestamps .add (200L); 和 300 的 单元 
timestamps.add (300L); 3， 
Filter myFilter = new TimestampsFilter (timestamps); 


6. 过 滤器 列表 

组 合 使 用 多 个 过 滤器 经 常 是 很 有 用 的 。 假 设 你 想得到 匹配 某 个 正 
则 表达 式 的 所 有 行 ， 但 是 你 只 对 包含 特定 单词 的 单元 感 兴趣 。 这 种 情 
况 下 ， 你 可 以 使 用 FilterList (过 滤器 列表 ) 对 象 组 合 多 个 过 滤器 ， 然 
后 传递 给 扫描 器 。FilterList 类 也 实现 了 Filter 接 口 ， 它 可 以 用 来 创建 组 
合 多 个 过 滤器 的 过 滤 逻 辑 。 

你 可 以 用 两 种 模式 配置 过 滤 强 列表 ， 即 MUST_PASS_ALL 或 
MUST_PASS_ONE。 顾 名 思 义 ， 这 两 种 模式 分 别 意 味 着 : 成 功 通过 所 
有 过 滤器 则 出 现在 最 终结 果 列 表 里 ， 或 者 只 要 成 功 通 过 一 个 过 滤器 则 
出 现在 最 终结 果 列 表 里 。 


创建 过 滤 天 列表 


List<Filter> myList = new ArrayList<Filter>(); < 一 
A es 
myList.add (myTimestampFilter); 实例 化 过 滤器 列 


myList.add (myRowFilter); 表 ， 并 配置 模式 
FilterList myFilterList = 

new FilterList (FilterList.Operator.MUST PASS ALL, myList); 
myFilterList.addFilter (myQualiFilter).; + ] 


把 非 原 始 列表 成 员 的 过 滤 
需 添 加 到 过 滤 需 列表 里 

这 些 过 滤器 按照 List 对 象 给 出 它们 的 顺序 执行 。 所以， 基于 使 用 的 
列表 对 象 的 类 型 或 者 用 特定 顺序 把 过 滤器 插入 列表 ， 你 可 以 进行 更 精 
密 的 控制 。 

FilteringAPI 是 很 强大 的 ， 它 提供 了 一 些 特 性 ， 文 持 你 优化 硬盘 寻 
道 时 间 。 这 不 仅 节 省 网 络 IO 而 且 广 省 硬盘 IO。 如 采 想 了 解 这 个 特性 的 
用 法 ， 参 见 ColumnPrefixFilter， 这 也 是 HBase 的 一 个 随机 预 装 的 过 滤 
器 。 


4.9 人 小结 


本 对 讨 论 了 很 多 内 容 ， 我 们 很 高 兴 你 学 完了 ， 希望 你 一 路 上 学 到 
了 一 些 东 西 。HBase 在 很 多 方面 提供 了 数据 管理 的 一 种 新 方式 。 无 论 在 
系统 的 功能 方面 还 是 在 使 用 系统 的 最 佳 实践 方面 都 症 如 此 。 运 气 好 的 
话 ， 你 的 视野 已 经 在 本 章 被 拓宽 了 ， 你 知道 了 在 设计 HBase 表 时 需要 考 
虑 的 因素 ， 以 及 在 你 决定 是 否 使 用 关系 型 系统 时 需要 作出 的 权衡 。 我 
们 总 结 一 下 本 章 的 要 点 。 

模式 设计 的 出 发 点 是 问题 ， 而 不 是 关系。 在 为 HBase 做 设计 时 ， 
需要 思考 的 是 如 何 为 一 个 问题 有 效 地 找到 答案 ， 而 不 是 这 个 实体 模型 
征 否 纯正 。 因 为 分 布 式 事务 妨碍 了 并 发 处 理 能 力 并 且 分 布 式 联结 受到 
网 络 IO 的 限制 ， 你 必须 做 出 取舍 。 在 4.1.1 市 里 我 们 从 不 会 问 : “为 了 高 
效 存储 数据 应 该 如 何 建 模 ? ”相反 ， 我 们 专注 于 有 效 回 答 查 询问 题 。 


模式 设计 永远 不 会 结束 。 你 必须 先 在 纸 上 设 计 一 些 东 西 ， 然 后 放 
到 一 些 场景 下 运行 ， 看 看 什么 地 方 会 出 问题 。 让 你 的 模式 逐步 完善 。 
反 规 范 化 处 理 的 办 法 既 羡 强大 的 朋 到 也 是 可 怕 的 敌人 。 在 读 啊 应 时 间 
和 写 复杂 性 之 间 总 有 取舍 。 先 使 用 一 种 假定 的 设计 回答 尽 可 能 多 的 问 
题 ， 然 后 再 调整 它 来 文 持 读 写 两 种 者 访问 模式 。 你 的 用 户 会 感谢 你 
网 

数据 规模 是 第 一 本 质 性 的 因素 。 当 在 HBase 或 其 他 分 布 式 系统 
做 构建 时 ， 合 理 分 布 工作 负载 总 是 一 个 需要 解决 的 问题 。 设 计 这 些 系 
统 生 用 来 处 理 散 布 在 整个 集群 上 的 巨大 流量 的 。 在 集群 中 单一 成 员 上 
的 流量 聚集 〈 或 称 为 热点 ) 是 灾难 。 因 此 ， 你 必须 在 脑海 里 一 直 记 住 
要 均衡 分 布 负 载 。HBase 有 能 力 把 均衡 分 布 负载 设计 到 模式 里 。 请 明智 
地 运用 这 种 能 力 。 

每 个 维度 都 是 一 个 提升 性 能 的 机 会 。HBase 在 物理 数据 模型 的 多 个 
维度 上 有 多 种 索引 。 每 个 索引 直接 摆 在 你 面前 。 这 是 便于 控制 的 ， 但 
更 是 一 个 挑战 。 如 果 你 没 弄 明日 如 何 让 系统 性 能 表现 最 好 ， 先 退回 
去 ， 看 看 是 否 有 某 一 个 索引 你 还 没有 用 好 。 掌 握 HBase 的 内 部 工作 机 制 
之 所 以 重要 ， 很 大 一 部 分 原因 就 是 领会 这 些 提升 性 能 的 机 会 。 

记 住 ， 设 计 行 键 是 你 能 做 的 唯一 最 重要 的 决定 。 请 充分 利用 数据 
逻辑 模型 的 灵活 性 。 扫 描 操 作 (Scan) 是 你 的 朋友 ， 但 是 你 需要 明智 
地 使 用 它们 ， 以 正确 的 访问 模式 使 用 它们 。 并 且 记 住 ， 所 有 其 他 办 法 
都 失败 的 时 候 ， 你 忌 古 能 求助 于 定制 过 滤 紫 。 

现在 你 掌握 了 在 设计 HBase 表 时 需要 的 技巧 ， 接 下 来 的 两 章 会 讨论 
扩展 HBase， 来 增加 一 些 你 在 应 用 系统 里 可 能 需要 的 有 趣 的 功能 。 第 7 
章 和 第 8 章 将 致力 于 研究 如 何 使 用 HBase 解 决 真实 世界 里 的 问题 ， 你 将 
学 着 练习 使 用 本 章 讨 论 的 一 些 技术 。 


本 章 涵盖 的 内 容 

是 协 处 理 器 以 及 如 何 有 效 使 用 协 处 理 妖 

加 | 办 处 理 絮 的 类 型 : observer 和 endpoint 

加 如 何在 你 的 集群 中 配置 以 及 验证 协 处 理 需 的 安装 

HBase 作 为 一 个 在 线 系统 ， 你 看 到 的 天 于 它 的 一 切 都 聚焦 在 数据 访 
问 上 。 在 第 2 章 介绍 的 5 个 命令 专门 用 于 读 写 数据 。 对 于 HBase 集 群 ， 最 
消耗 计算 资源 的 操作 发 生 在 使 用 服务 器 端 过 滤器 扫描 (Scan) 结果 的 
时 候 。 即 便 如 此 ， 这 种 计算 还 是 专门 针对 数据 访问 的 。 你 可 以 使 用 定 
制 过 滤 希 把 应 用 逻辑 推 到 集群 上 ， 但 是 过 滤 希 被 局 限 在 单行 的 内 容 
上 。 为 了 在 HBase 里 执行 数据 上 的 计算 ， 你 被 迫 依靠 Hadoop 
MapReduce 或 者 依 徘 客户 端 代码 来 读 取 、 修 改 和 写 回 数据 到 HBase 。 

HBase 协 处 理 屡 作为 HBase 0.92.0 版 本 的 一 个 特性 增加 引入 到 数据 
操作 工具 集 里 。 随 着 协 处 理 器 的 3 引入， 我 们 可 以 把 任意 计算 逻辑 

(arbitrary computation) 推 到 托管 数据 的 HBase 节 点 上 。 这 种 代码 跨 所 

有 RegionServer 并 行 运行 。 这 个 特性 把 HBase 集 群 从 水 平 扩展 存储 系统 
转变 为 高 效 的 、 分 布 式 的 数据 存储 和 数据 处 理 系 统 。 

警告 协 处 理 器 是 HBase 的 一 个 全 新 特性 ， 还 没有 在 生产 部 署 中 测 
斌 过。 它们 和 HBase 内 部 机 制 的 整合 是 非常 侵略 性 的 。 可 以 把 它们 等 同 
看 做 Linux 内 核 模块 或 者 天 系 型 数据 库 里 用 C 实 现 的 存储 过 程 。 编 写 一 
个 正确 无 误 的 observer 协 处 理 絮 是 很 复杂 的 ， 并 且 这 样 的 协 处 理 如 在 大 
规模 运行 时 非常 难于 调试 。 这 不 像 客 户 端的 错误 ， 一 个 出 错 的 协 处 理 
名 会 让 你 的 集群 宕 机 。HBase 社 区 仍然 在 寻找 如 何 有 效 使 用 协 处 理 絮 的 
方法 。【81 建议 谨慎 使 用 。 

本 章 中 ， 我 们 将 介绍 协 处 理 器 的 两 种 类 型 ， 并 且 展 示 每 种 协 处 理 
狼 如 何 使 用 的 例子 。 我 们 希望 这 能 开阔 你 的 思路 ， 以 便 你 在 目 己 的 应 


用 系统 里 可 以 用 到 协 处 理 右 。 天 知道 : 也 许 将 来 发 表 博 客 帖子 来 介绍 
权威 的 协 处 理 器 例子 的 那个 人 区 是 你 ! 请 让 你 的 例子 比 单词 计数 
(WordCount) 例子 更 有 趣 一 些 吧 。 

更 多 来 自 Google 的 灵感 

和 Hadoop 生 态 系 统 的 其 他 大 部 分 产品 一 样 ， 协 处 理 强 也 是 因为 
Google 而 在 开源 社区 中 出 现 。HBase 协 处 理 器 的 思路 来 源 于 2009 年 一 
次 对 话 中 展示 的 2 张 和 幻灯 片 。 对 于 许多 水 平 扩展 的 、 低 延迟 的 运算 ， 
协 处 理事 作为 天 键 因 素 被 引用 到 。 这 些 运 算 包 括 机 需 翻 译 、 全 文 检 索 
和 可 扩展 的 元 数据 管理 。 


5.1 处理 器 


协 处 理 絮 有 两 种 :observer 和 endpoint。 每 一 种 协 处 理 絮 服务 于 不 
同 的 目标 ， 并 且 按 照 目 己 的 API 来 实现 。observer 人 允许 集群 在 正 篆 的 客 
户 端 操 作 过 程 中 可 以 有 不 同 的 行为 表现 。endpoint 允 许 你 扩展 集群 的 能 
力 ， 对 客户 端 应 用 开放 新 的 运算 命令 。 

5.1.1 observer 协 处 理 


为 了 理解 observer 协 处 理 器 ， 先 来 了 解 一 个 请 求 的 生命 周期 是 有 大 
助 的 。 一 个 请 求 从 客户 端 开 始 ， 创 建 一 个 请 求 对 象 ， 在 HITableInterface 
实现 上 调用 合适 的 方法 。 例 如 ， 创 建 一 个 Put 实 例 ， 调 用 put() 方 法 。 
HBase 客 户 端 基于 行 键 定位 到 应 该 接收 该 Put 的 RegionServer， 发 起 RPC 
调用 。RegionServer 收 到 Put， 把 它 转 交 给 合适 的 region。 该 region 处 理 
这 一 请 求 ， 然 后 构造 一 个 返回 给 客户 端的 回应 。 这 个 过 程 如 图 5-1 所 
示 o 

observer 位 于 客户 端 和 HBase 之 间 ， 在 这 个 过 程 发 生 时 修改 数据 访 
问 。 你 可 以 在 每 个 Get 命令 后 运行 一 个 observer， 修 改 返 回 给 客户 端的 
结果 。 或 者 你 可 以 在 一 个 Put 命 令 后 运行 一 个 observer， 在 客户 端 写 入 


HBase 的 数据 存 入 人 硬盘 之 前 执行 操作 。 你 可 以 把 observer 协 处 理 器 想象 
成 关系 型 数据 库 里 的 触发 器 (trigger) 或 者 面向 方面 编程 (aspect- 
oriented programming) 里 的 建议 (advice) 。 多 个 observer 可 以 同时 被 
登记 ， 它 们 按照 优先 级 次 序 执行 。CoprocessorHost 类 代表 region 管 理 
observer 的 登记 和 执行 。 一 个 RegionServer 拦 截 一 个 Put 命 令 的 过 程 如 图 
5-2 所 示 。 


RegionServer 


1 客户 端 发 出 Put 请 求 。 

2 该 请 求 被 分 派 到 合适 的 RegionServer 和 region. 

3 该 region 接 收 到 put () ， 进 行 处 理 ， 并 构造 一 个 返回 响应 。 
4 最 终结 果 返 回 给 客户 端 


图 5-1 一 个 请 求 的 生命 周期 。 客 户 端 发 出 的 Put 请 求 被 分 派 ， 直 接 
导致 在 某 个 region 上 调用 put() 


RegionServer 


1 客户 端 发 出 Put 请 求 。 

2 该 请 求 被 分 派 给 合适 的 RegionServer 和 region。 

3 CoprocessorHost 拦 蕉 该 请 求 ， 然 后 在 该 表 上 登记 的 每 个 RegionObserver 上 调用 przePut () 。 

4 如 果 没 有 被 prePut () 拦截 ， 该 请 求 继续 送 到 region， 人 然后 进行 正常 处 理 ， 

5 region 产 生 的 结果 再 次 被 CoprocessorHost 拦 截 。 这 次 在 每 个 登记 的 RegionObserver 上 调用 postPut () 。 
6 假如 没有 postPut () 拦截 该 响应 ， 最 终结 果 被 返回 给 客户 端 。 


图 5-2 自然 情况 下 的 RegionObserver。region 不 是 直接 调用 put()， 而 
是 一 个 接 一 个 地 调用 所 有 登记 的 RegionObserver 上 的 prePutO 和 
postPut0。 每 次 调用 都 有 机 会 在 把 啊 应 返回 给 客户 端 之 前 修改 或 者 中 断 


= 全 

请 记 住 ， 协 处 理 器 运行 在 和 RegionServer 相 同 的 进程 空间 里 。 这 意 
味 着 协 处 理 器 的 代码 拥有 服务 器 上 HBase 用 户 进 程 的 全 部 权限 ， 也 意味 
着 出 错 的 协 处 理 器 有 潜在 可 能 使 进程 崩溃 。 此 时 此 刻 并 没有 隔离 保 
证 。 你 可 以 通过 跟踪 JIRA 单 子 来 关注 解决 这 个 潜在 问题 的 工作 。 

从 HBase 0.92 版 本 开始 ， 有 以 下 3 种 observer 可 用 。 


熙 


人 
请 


加 RegionObserver 一 一 这 种 observer 钧 在 数据 访问 和 操作 阶段 。 所 
有 标准 的 数据 操作 命令 都 可 以 被 pre-hooks 和 post-hooks 拦 截 。 它 也 对 
region 内 部 操作 开放 pre-hooks 和 postrhooks， 例 如 ， 刷 写 MemStore 和 拆 
分 region。RegionObserver 运 行 在 region 上 ， 因 此 同一 个 RegionServer 上 
可 以 运行 多 个 RegionObserver。 可 以 通过 模式 更 新 或 者 配置 
hbase.coprocessor.region.classes 属 性 来 登记 RegionObserver 。 

加 WALObserver 一 一 预 写 日 志 (write-ahead log) 也 支持 observer 协 
处 理 器。 唯一 可 用 的 钧 子 是 pre-WAL 和 post-WAL 写 事 件 。 和 
RegionObserver 不同 ， WALObserver 运行 在 RegionServer 的 环境 里 。 
可 以 通过 模式 更 新 或 者 配置 hbase.coprocessorwal.classes 属 性 来 登记 
WALObserver 。 

四 MasterObserver 一 一 为 了 钩 住 DDL 事件 ， 如 表 创 建 或 模式 修改 ， 
HBase 提供 了 MasterObserver 。 例 如 ， 当 主 表 被 删除 时 你 可 以 使 用 
postDeleteTable() 钧 子 来 删除 辅助 索引 。 这 种 observer 运行 在 Master 节 
点 上 。 可 以 通过 配置 hbase.coprocessormaster.classes 属 性 登记 


MasterObserver ° 


5.1.2 endpoint 协 处 理 器 


endpoint 是 HBase 的 一 种 通用 扩展 。 当 endpoint 安 装 在 集群 上 时 ， 它 
扩展 了 HBase RPC 协 议 ， 对 客户 端 应 用 开放 了 新 方法 。 束 像 observer 一 
样 ，endpoint 人 在 RegionServer 上 执行 ， 紧 挨 着 你 的 数据 。 

endpoint 协 处 理 絮 类 似 于 其 他 数据 库 引 敬 中 的 存储 过 程 。 从 客户 并 
看 ， 调 用 一 个 endpoint 协 处 理 絮 类 似 于 调用 其 他 HBase 命 令 ， 只 是 其 功 
能 建立 在 定义 协 处 理 器 的 定制 代码 上 。 通 常 完 创建 请 求 对 象 ， 然 后 把 
它 传 给 HtableInterface 在 集群 上 执行 ， 最 后 收集 结果 。 可 以 按照 你 编写 
的 任意 Java 代 码 做 任何 事情 。 


最 基本 的 是 ，endpoint 可 以 用 来 实现 分 散 聚 合算 法 (scatter-gather 
algorithm) 。HBase 随 机 附带 了 一 个 聚合 示例 : 实现 求 和 和 求 平 均 数 这 
样 的 简单 聚合 计算 的 一 个 endpoint。AggregateImplementation 实例 在 托 
管 数 据 的 节点 上 计算 得 到 部 分 结果 ， 然 后 AggregationClient 在 客户 端 进 
程 里 计算 得 到 最 终结 有 果 。 一 个 实际 使 用 的 聚合 计算 的 例子 如 图 5-3 所 
示 。 


ReglionServer] 


客户 端 应 用 


Region!] 
~ Region3 
— Region4 


Batch.Call.call() 


HTableInterface 
.CoprocessorExec() RegionServer2 


Aggregate results 


图 5-3 一 个 实际 使 用 的 endpoint 协 处 理 器 。 所 有 region 部 署 了 客户 端 
使 用 的 接口 的 一 个 实现 。Batch.Call 的 实例 封装 方法 调用 ， 
coprocessorExec() 方 法 处 理 分 布 式 调用 。 在 每 个 请 求 完成 以 后 ， 结 采 人 被 
返回 给 客户 逆 ， 进 行 聚 合 处 理 
我 们 将 展示 给 你 如 何 实现 这 两 种 协 处 理 器 ， 以 及 演示 在 HBase 安 装 
中 如 何 让 这 两 种 实现 生效 。 


5.2 实现 一 个 observer 


你 可 以 使 用 协 处 理 器 作为 TwitBase 的 一 个 部 分 。 回 忆 一 下 在 上 一 
草创 建 的 follows 关系 表 。 我 们 不 再 手工 维护 followedBy 表 里 的 辅助 索 
引 ， 而 是 编写 一 个 observer 来 维护 这 种 关系 。 

5.2.1 五 

为 了 完成 这 个 目标 ， 你 可 以 实现 一 个 RegionObserver， 并 且 帮 盖 它 
的 postPut0) 方 法 。 在 postPut0 里 ， 唯 一 有 关 的 内 容 是 客户 端 发 送 的 Put 
实例 。 这 意味 着 你 需要 对 上 一 章 定义 的 follows 和 followedBy 模式 稍 加 
修改 。 为 什么 呢 ? 先 让 我 们 研究 一 下 follows 和 followedBy 表 的 实体 图 ， 


如 图 5-4 所 示 。 
follows 表 


行 键 : 列 限定 符 : 被 关注 用 户 ID 


单元 值 : 被 关注 用 户 名 


followedBy 表 
行 键 : 列 限定 符 : 粉丝 用 户 ID 
mds(followed)jmds(follower) 和 


单元 值 : 粉丝 用 户 名 


图 5-4 优化 了 存储 空间 和 IO 效率 的 follows 和 followedBy 表 的 模式 。 
follows 表 存储 了 根据 关注 关系 建立 索引 的 一 半 关 系 实 体 ，followedBy 表 
存储 了 根据 被 关注 关系 建立 索引 的 另 一 半 关 系 实 体 

使 用 者 目 慎 

本 例 展示 给 你 如 何 使 用 协 处 理 器 维护 辅助 索引 。 实 战 中 ， 考 虑 到 
吞吐 量 因素 我 们 不 建议 使 用 这 种 方式 。 更 新 辅助 索引 可 能 需要 和 托管 
在 不 同 RegionServer 上 的 region 通 信 ， 这 种 通信 会 产生 额外 的 网 络 压 
力 ， 会 影响 集群 性 能 。 

也 束 是 说 ， 如 果 你 的 应 用 系统 不 需要 最 大 化 吞吐 量 ， 这 种 做 法 是 
一 种 秋 下 索引 维护 工作 的 简单 、 聪 明 的 办 法 。 在 本 例 这 样 的 情况 下 ， 
你 可 以 通过 异步 处 理 postPut 操作 ， 把 它 从 天 键 的 写 过 程 中 移 开 的 处 理 
办 法 来 减少 客户 端 延 愉 。 然 后 你 可 以 使 用 MapReduce 作 业 来 周期 性 地 重 
建 索引 ， 捕 获 被 忽视 的 记录 。 

往 follows 表 里 写 入 新 纪录 需要 单元 {fid_followed:name_ followed} 。 
这 是 observer 可 以 得 到 的 包含 在 Put 实 例 里 的 唯一 信息 。 而 往 followedBy 
表 里 写 入 新 纪录 则 需要 单元 {id_follower:name_follower}。observer 得 不 
到 关系 的 这 个 部 分 。 为 了 实现 这 个 observer， 写 数据 到 follows 表 的 单 
个 Put 实例 必须 包含 完整 的 天 系 信息 。 

因为 写 入 follows 表 的 Put 现 在 必须 包含 完整 的 天 系 实体 ， 你 可 以 把 
同样 的 关系 实体 存储 到 followedBy 表 里 。 这 样 两 张 表 的 每 一 行 都 存储 
了 一 个 完整 的 关系 实体 。 更 新 后 的 实体 图 如 图 5-5 所 示 。 


follows 表 


A to_name: from: from name: 
- : 注 用 户 ID | ys 、 a es 
行 键 : to: 被 关注 用 户 ID | 被 关注 用 户 名 办 丝 用 户 ID 粉丝 用 户 名 


followedBy 表 


， 和 a3 记 to_name: from: from_name: 
加: 被 关注 用 户 ID | 流 关 注 用 户 粉丝 用 户 ID 


| 
行 键 : 
| 
图 5-5 更 新 后 的 follows 和 followedBy 表 的 模式 。 现 在 两 张 表 的 每 一 
行 都 存储 了 一 个 完整 的 天 系 实体 
在 Put 里 可 以 得 到 全 部 关系 信息 ， 你 可 以 着 手 实现 这 个 observer 。 
5.2.2 从 HBase 开 始 


你 可 以 实现 自己 的 FollowsObserver 来 维护 这 些 关 系 。 这 样 做 需 
扩展 BaseRegionObserver 类 和 徐 新 postPut() 方 法 : 


public class FollowsObserver extends BaseRegionObserver { 


@Override 

public void PostPut ( 
final ObserverContext<RegionCoprocessorEnvironment> e， 
final Put Dut, 
final WALEdit edit, 
final boolean writeToWAL) 

throws IOException { 
// implementation 


这 个 FollowsObserver 跟 踪 follows 表 上 的 Put， 等 竺 新 的 关注 关系 条 
目 出 现 。 当 发 现 新 条 目 时 ， 它 会 构建 这 个 关系 的 倒序 并 写 回 到 


followedBy 表 里 。 第 一 步 是 检测 Put 请 求 的 内 容 是 否 正确 。 如 下 所 示 ， 
检查 进来 的 Put 请 求 里 使 用 的 列 族 名 : 
if (!put.getFamilyMap() .containsKey ("follows")) 
reGuUrI 

因为 通过 HBase 的 配置 文件 hbase-site.xml 安装 的 协 处 理 器 被 应 用 
到 所 有 的 表 上 ， 所 以 这 种 检查 是 必需 的 。 为 了 你 的 目标 ， 你 只 需要 在 
follows 表 上 操作 。 下 面 的 检查 确认 你 不 是 在 其 他 表 上 操作 。 通 过 检查 
RegionCoprocessorEnvironment 对 象 ， 找 出 observer 正 在 哪 张 表 上 执行 。 
该 对 象 保存 了 到 HRegion 的 引用 和 有 关 的 HregionInfo: 


byte [] table 

= e.getEnvironment () .getRegion() .getRegionInfo() .getTableName () |; 
if (!Bytes.equals(table, Bytes.toBytes ("follows"))) 

returns 


尽早 、 尽 快 退出 ! 

如 果 这 不 是 你 感 兴趣 的 Put， 务 必 马 上 返回 。 协 处 理 器 作为 数据 流 
的 一 部 分 在 执行 。 这 里 花费 的 时 间 就 是 客户 端 等 待 响应 的 时 间 。 

如 果 检 测 结果 满足 正确 的 条 件 ， 束 该 干 活 儿 了。 第 二 步 是 从 进来 
的 Put 命令 里 取出 相关 组 成 部 分 。 你 将 使 用 这 些 组 成 部 分 作为 参数 来 创 
建 倒序 关系 。 为 此 ， 进 入 Put 实 例 ， 使 用 Put.get(byte[] family, byte[] 
qualifier) 方 法 取出 需要 的 参数 。 该 方法 返回 匹配 请 求 参 数 的 一 个 
KeyValue 列 表 。 因 为 Put 只 包含 单元 的 一 个 时 间 版 本 ， 所 以 你 知道 第 一 
个 KeyValue 是 你 感 兴 趣 的 : 


KeyValue kv = put.get (Bytes.toBytes('f'), Bytes.toBytes ("from")) .get (0) ; 
String from = Bytes.toSstring(kv.getValue()); 
kv = put .get (Bytes.toBytes('f'), Bytes.toBytes('"to'")) .get (0) ; 


string to = Bytes.tostring (kv.getValue()); 

最 后 一 步 是 把 新 关系 写 回 到 HBase。 你 可 以 复 用 连接 信息 ， 在 和 初 
始 相 同 的 表 上 执行 操作 。 记 住 ， 新 行 很 可 能 托管 在 不 同 的 RegionServer 
上 ， 所 以 经 常 需要 跨 网 络 操 作 : 


RelationsDAO relations = new RelationsDAO (Pool) ; 倒序 关系 
relations.addFollowedBy (to, from); < 一 一 


通 和 营 你 不 要 像 这 里 这 样 把 客户 端 和 服务 器 代码 混合 在 一 起 。 在 这 
里 你 复 用 RelationsDAO 来 专注 于 增加 一 个 被 关注 关系 而 不 是 构造 一 个 
Put。 

看 起 来 好 似 递 归 

本 例 中 ， 你 启动 了 一 个 新 HBase 客 户 端 并 访问 集群 一 -从 集群 内 部 
访问 ! 也 就 是 说 ，follows 表 上 的 一 个 客户 端 Put 局 动 了 其 他 表 上 的 一 个 
客户 端 Put。 一 个 草率 实现 的 observer 可 能 在 其 他 表 上 局 动 另外 一 个 客户 
端 Put， 等 等 。 这 样 的 代码 会 给 一 个 完全 无 率 的 HBase 集 群 带 来 大 太 
烦 。 本 例 中 ， 通 过 检查 关系 的 方 同 核实 了 基本 情况 。 你 在 实现 目 己 的 
observer 时 请 留意 这 些 细 广 。 

使 用 RelationsDAO 写 回 到 HBase 需 要 一 个 HTablePool 实 例 。 通 过 钩 
入 协 处 理 器 的 生命 周期 ， 你 可 以 使 用 一 个 实例 变量 来 管理 该 HTablePool 
实例 。start0 和 stop0 方 法 为 此 而 提供 ， 尽 管 它们 的 文档 很 少 ; 


@Override 

public void start (CoprocessorEnvironment env) throws IOException { 
Pool = new HTablepPool (env.getConfiguration(), Integer.MAX VALUE) ; 

} 

@Override 


public void stop (CoprocessorEnvironment env) throws IOException { 
pool .close () ; 


} 
完整 的 FollowsObserver 如 代码 清单 5-1 所 示 。 
代码 清单 5-1 FollowsObserver 


package HBaSseIRA.TwitBase .CoptoceSssorsS ; | 

| 省 略 导 入 
人 <- 一 部 分 
public class FollowsObserver extends BaseRegionObserver { 


private HTablePool Pool = null; 


@Override 

public void start (CoprocessorEnvironment env) throws IOException { 
pool = new HTablePool (env.getConfiguration(), Integer.MAX VALUE) ; 

} 

@Override 


public void stop(CoprocessorEnvironment env) throws IOException { 
pool .close() :; 


} 


@Override 
public void PostPut ( 
final ObserverContext<RegionCoprocessorEnvironment> e， 
final Put put, 
final WALEdit edit, 
final boolean writeToWAL) 
throws IOException { 
byte [] table 
= e.getEnvironment () .getRegion () .getRegionInfo () .getTableName () ; 
if (!Bytes.equals (table, FOLLOWS TABLE NAME)) 
return; 这 不 是 你 
KeyValue kv = put.get (RELATION FAM, FROM) .get (0) ; 寻找 的 表 
String from = Bytes.tostring(kv.getValue()); 
kv = put.get (RELATION FAM, TO) .get (0) ; 
String to = Bytes.toSstring(kv.getValue()); 


RelationsDAO relations = new RelationsDAO (pool); 
relations.addFollowedBy (to, from); oe 
* | 倒序 关系 


5.2.3 安 锋 observer 


该 测试 一 下 FollowsObserver 了 。 安装 observer 协 处 理 器 有 两 种 方 
法 : 变更 表 模 式 或 者 通过 hbase-site.xml 文 件 里 的 配置 项 。 和 配置 文件 安 
闭 方 法 不 同 ， 通 过 模式 变更 的 安装 方法 可 以 不 用 重启 HBase， 但 还 是 需 
要 让 表 临 时 下 线 。 

让 我 们 先 来 试 试 模式 变更 的 安装 方法 。 为 了 安装 
FollowsObserver， 你 需要 把 它 打包 到 JAR 文 件 。 按 照 之 前 的 同样 方式 处 


理 如 下 : 


$ mvn package 


[INFO] ------- 
[INFO] BUILD SUCCESS 
[INFO] ------- 


现在 打开 HBase Shell， 并 安装 observer: 


sS hbase shell 


HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 
Version 0.92.0, r1231986, Mon Jan 16 13:16:35 UTC 2012 


hbase (main) :001:0> disable 'follows' 
0 row(s) in 7.0560 seconds 


hbase (main) :002:0> alter 'follows', METHOD => 'table att', 
!'Ccoprocessor'=>'file:///Users/ndimiduk/repos/hbaseia- 
twitbase/target/twitbase-1.0.0.jar 
|HBaseIA.TwitBase.coprocessors.FollowsObserver|1001|' 
Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

0 row(s) in 1.0770 seconds 


hbase (main) :003:0> enable 'follows' 
0 row(s) in 2.0760 seconds 


天 闭 该 表 会 让 它 的 所 有 region 下 线 。 这 样 可 以 使 进程 的 类 路 径 
(classpath) 得 以 更 新 ， 这 是 安装 过 程 所 需要 的 。alter 命令 更 新 表 模 
式 ， 让 它 知 道 新 的 协 处 理 器 。 这 种 在 线 安 装 方式 只 适用 于 observer 协 处 
理 器 。coprocessor 属 性 参数 用 | 字符 分 隔 。 第 一 个 参数 是 包含 该 协 处 理 
器 实现 的 JAR 包 的 路 径 ， 第 二 个 参数 是 该 协 处 理 器 实现 的 类 ， 第 三 个 
参数 是 该 协 处 理 需 的 优先 级 。 当 你 加 载 多 个 协 处 理 器 时 ， 它 们 按照 优 
移 次 序 执行 。 对 于 任何 给 定 的 调用 ， 前 面 的 协 处 理 器 有 机 会 中 断 执行 

链条 ， 阻 止 后 面 的 协 处 理 器 的 执行 。 最 后 的 参数 ， 本 例 中 被 省 略 掉 
的 ， 是 传递 给 该 协 处 理 右 实现 的 构造 钞 数 的 一 个 参数 列表 。 

如 果 一 切 正常 ， 可 以 在 HBase Shell 中 描述 (describe) 一 下 follows 
表 ， 确 认 出 现 了 新 协 处 理 器 : 


hbase (main) :004:0> describe 'follows' 
DESCRIPTION ENABLED 
{NAME => 'follows', coprocessor$1 => 'file:///U true 
sers/ndimiduk/repos/hbaseia-twitbase/target/twi 
tbase-1.0.0.jar|HBaseIA.TwitBase.coprocessors.F 
ollowsObserver|1001|', FAMILIES => [{NAME => 'f 
', BLOOMFILTER => 'NONE', REPLICATION SCOPE => 
'0', VERSIONS => '1', COMPRESSION => 'NONE', MI 
N VERSIONS => '0', TTL => '2147483647', BLOCKSI 
ZE => '65536', IN MEMORY => 'false', BLOCKCACHE 
=> 'true'}]} 
1 row(s) in 0.0330 seconds 


下 一 次 当 你 往 follows 表 里 增加 新 记录 时 ，FollowsObserver 协 处 理 
句 会 起 作用 ， 为 你 更 新 倒序 索引 。 新 插入 一 个 关系 来 验证 一 下 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool follows TheRealMT SirDoyle 

Successfully added relationship 

$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool list follows TheRealMT 

<Relation: TheRealMT -> SirDoyle> 

$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool list followedBy SirDoyle 

<Relation: SirDoyle <- TheRealMT> 


吹 毛 求 狂 ! 

在 往 一 张 表 模式 里 安装 协 处 理 器 了 时， 请 小 心 。 协 处 理 器 的 品质 直 
到 运行 时 才能 得 到 验证 。HBase 不 会 发 现任 何 销 误 ， 如 多 余 的 空格 或 
者 无 效 的 JAR 路 径 。 直 到 下 一 次 客户 端 操 作 而 observer 不 能 工作 时 你 才 
会 知道 安装 失败 。 我 们 建议 在 假定 一 切 就 绪 之 前 你 应 该 实际 测试 一 下 
协 处 理 器 的 部 署 。 

本 例 中 ， 你 是 从 本 地 文件 系统 上 的 路 径 安装 协 处 理 器 JAR 包 的 。 如 
果 你 的 集群 使 用 像 Chef (www.opscode.com/chef/) 或 者 Puppet 

(http://puppetlabs.com) 这 样 的 工具 来 管理 ， 这 种 安装 可 能 很 简单 。 


HBase 也 可 以 从 HDFS 加 载 JAR 包 。 实 践 中 ， 使 用 HDFS 部 署 模 式 比 
复制 应 用 JAR 包 到 每 个 节点 要 容易 得 多 。 


5.2.4 装 选 项 


observer 协 处 理 需 也 可 以 通过 配置 文件 方式 进行 安装 。 这 种 安装 方 
式 需 要 在 HBase 类 路 径 里 可 以 找到 observer 类 。 本 例 中 ，observer 在 所 有 
表 上 登记 ， 所 以 你 必须 小 心 ， 只 在 预期 环境 里 执行 拦截 操作 。 配 置 文 
件 安 闭 方 式 是 MasterObserver 协 处 理 器 登记 实例 的 主要 方式 。 

小 秘密 

当 你 在 HBase Shell 里 描述 一 张 表 时 ， 通 过 hbase-site.xml 文 件 登记 的 
协 处 理 絮 不 会 像 前 面 的 例子 那样 显示 出 米 。 验 证 这 种 observer 是 否 已 登 
记 的 唯一 办 法 是 使 用 它 ， 最 好 通过 某 种 目 动 的 部 署 后 测试 操作 。 不 要 
说 我 们 没有 提醒 你 。 

如 果 你 需要 登记 两 个 MasterObserver 协 处 理 器 ， 你 可 以 通过 在 
hbase-site.xml 文 件 里 添加 下 面 属性 来 实现 : 


<property> 
<name>hbase.coprocessor.master.classes</name> 
<value>foo.TableCreationObserver, foo.RegionMoverObserver</value> 
</property> 


这 上 段 配 置信 息 把 TableCreationObserver 类 登记 为 observer 最 高 优先 
级 ， 接 下 来 是 RegionMoverObserver 。 


5.3 实现 一 个 endpoint 


跟 踩 使 用 TwitBase 的 人 们 之 间 的 天 系 ， 对 于 维持 他 们 的 社会 网 络 
征 很 重要 的 。 我 们 布 望 人 们 之 间 这 种 数字 世界 的 连通 性 可 以 促进 真实 
世 春 里 人 们 之 间 的 关系 。 但 实际 上 上， 跟踪 这 些 关 系 的 最 适当 的 原因 可 
能 是 想 看 看 你 的 粉丝 是 否 比 其 他 人 更 多 。 比 如 ， 一 个 TwitBase 用 户 想 
准确 知道 他 现在 有 多 少 粉 给。 这 种 情况 下 ， 让 用 户 等 看 完成 一 次 


MapReduce 作 业 是 不 能 接受 的 。 甚 至 在 一 次 标准 扫 揪 中 所 有 数据 在 网 络 
上 传输 的 压力 也 是 不 能 接受 的 。 你 将 使 用 endpoint 协 处 理 右 为 TwitBase 
建立 这 种 特性 。 

对 于 一 个 个 人 用 户 ， 你 可 以 使 用 扫描 来 实现 所 需 的 粉丝 计数 功 
能 。 这 样 做 古 非 常 价 单 的 。 先 定义 扫 摘 范围 ， 然 后 对 结 末 进 行 计数 : 


final byte[] startKey = Md5Utils.md5sum(user); 构造 起 始 键 
final byte[] enqKey = Arrays.copyOf (startKey, startKey.length); |. 
endKey[lendKey.length-1]++; < ,,.... 和 结束 键 

Scan Scan = new Scan(startKey, endKey); 

scan.setMaxVersions (1) ; < 二 限制 返回 的 

long Sum = 0;，; KeyValue 


ResultScanner rs = followed.getScanner (Scan) ; 
for(Result r : rs) { 
SUum++; < 一 一 统计 结 着 


} 
这 种 扫 摘 方式 工作 得 很 好 。 为 什么 你 要 让 这 件 事 情 变 得 更 复杂 
呢 ? 可 能 是 台 秒 必 和 争 吧 。 这 种 扫 插 可 能 钙 你 使 用 应 用 系统 的 关键 途 
径 。 每 个 返回 的 结果 (Result) 在 网 络 上 占用 数 个 字 市 一 一 即使 你 省 上 略 
了 所 有 数据 ， 你 仍然 需要 传输 行 键 。 通 过 把 这 种 扫描 实现 为 endpoint， 
可 以 把 所 有 数据 留 在 HBase 世 点 上 。 在 网 络 上 传输 的 唯一 数据 束 是 加 总 
后 的 值 。 


5.3.1 为 endpoint 定义 接口 


为 了 把 粉丝 计数 器 实现 为 一 个 endpoint， 可 以 从 一 个 新 接口 开始 。 
该 接口 建立 扩展 RPC 协 议 的 合约 ， 并 且 它 在 客户 端 和 服务 器 两 边 必须 
匹配 。 


public interface RelationCountProtocol extends CoprocessorProtocol { 
public long followedByCount (String userId) throws IOException; 


} 

这 里 定义 了 RelationCountProtocol， 它 开放 了 一 个 
followedByCount(0 方 法 。 这 是 在 客户 端 和 服务 右上 面 编写 代码 的 基石 。 
让 我 们 从 服务 器 开始 。 


5.3.2 实现 endpoint 服务 器 
人 。 这 种 扫 摘 在 
执行 扫 摘 的 机 器 上 读 取 数据 ， 这 和 通过 客户 端 API 执 行 的 扫 撒 不 同 。 这 
种 对 象 称 为 InternalScanner。InternalScanner 和 客户 端 API 里 的 Scanner 在 
概念 上 是 相同 的 。 区 别 在 于 它们 驻 留 在 RegionServer 上 ， 并 且 直 接 访 
问 存储 和 缓存 层 。 记 住 ， 实 现 endpoint 就 是 直接 在 RegionServer 上 编 
程 。 


如 下 所 示 ， 创 建 一 个 InternalScanner 实 例 : 
byte [] startkey = Md5Utils.md5sum(userId); 
Scan Scan = new Scan(Startkey) ; 
scan.setFilter(new PrefixFilter(startkey)); 
scan.addColumn (Bytes.toBytes('f'), Bytes.toBytes ("from")); 
scan.setMaxVersions (1) ; 


RegionCoprocessorEnvironment env 
= (RegionCoprocessorEnvironment)getEnvironment () ; 
InternalScanner scanner = env.getRegion() .getScanner (Scan) ; 


运行 协 处 理 器 的 region 有 特定 的 InternalScanner。 可 以 通过 调用 环 
境 提 供 的 getRegion() 辅 助 方法 得 到 那个 region。 该 环境 可 以 通过 
BaseEndpointCoprocessor 类 里 的 getEnvironment() 方 法 得 到 。 在 这 种 情况 
你 使 用 的 是 本 地 缓存 ， 而 不 是 跨 网 络 复制 数据 。 这 样 速度 快 得 

， 但 是 这 种 接口 还 是 有 些 不 同 。 如 下 所 示 ， 读 取 扫 摘 结 果 : 


long Sum = 0; 
List<KeyValue> results = new ALayL1iSt<KeyValue> () ; 
boolean hasMore = false; 
do { 
hasMore = scanner.next (results).,; 
sum += results.size(),; 
results.clear(),; 
} while (hasMore) ; 
scanner.close () ; 
return sum; 


do-while 循 环 ， 不 是 while 循 环 

遗憾 的 是 ，InternalScanner 没 有 实现 常见 的 java.util.Iterator 授 口 。 为 
了 确保 你 接收 到 所 有 的 结果 ， 使 用 了 这 里 看 到 的 do-while 循 环 ， 而 不 是 
标准 的 while 循 环 。 男 一 种 处 理 方式 是 在 循环 里 复制 下 面 逻辑 : 一 旦 读 
到 第 一 页 ， 再 使 用 通常 的 while 循 环形 式 。 这 种 循环 形式 在 C 程 序 里 更 
为 常见 。 

InternalScanner 返 回 的 results 结 果 是 原始 的 KeyValue 对 象 。 这 和 窗户 
端 API 里 的 扫描 硕 有 明显 的 不 同 。 客 户 端 API 里 的 扫 朱 器 返回 代表 整 行 
的 Result 实例 。 而 InternalScanner 遍 历 对 应 单个 单元 的 KeyValue 实 例 。 
通过 齐 慎 地 限制 扫描 返回 的 数据 ， 你 可 以 你 证 一 个 KeyValue 能 够 代表 
预期 结果 集 里 的 一 行 。 它 也 限制 了 必须 从 硬盘 读 出 的 数据 量 。 

把 这 些 放 在 一 起 ， 完 整 的 RelationCountImpl 如 代码 清单 5-2 所 示 。 


> 


代码 清单 5-2 RelationCountImpl.java: 实现 endpoint 的 服务 器 部 分 


package HBaseIA.TwitBase.coprocessors; 省 略 导 
2 < 一 人 部 分 


public class RelationCountImpl 
extends BaseEndpointCoprocessor implements RelationCountProtocol { 


@Override 
public long followedByCount (String userId) throws IOException { 
bytel[l] startkey = MdSUtils.md5sum(userId),; 
Scan Scan = new Scan(startkey); 
scan.setFilter(new PrefixFilter(startkey)); 
scan.addColumn (RELATION FAM, FROM); 
scan.setMaxVersions (1) ; 


RegionCoprocessorEnvironment envV 


= (RegionCoprocessorEnvironment)getEnvironment () ; 打开 本 地 


InternalScanner scanner = env.getRegion() .getScanner (Scan) ; 4 扫描 器 


long Sum = 0;，; 

List<KeyValue> results = new ArrayList<KeyValue>(); 

boolean hasMore = false; 

do { 
hasMore = scanner.next (results); 遍历 扫 
Sum += results.size(); 2 
results.clear (); 描 结果 


} while (hasMore); 不 要 忘 了 在 两 次 循 


Scanner .close() ; _ 人 
、 日 | 洁 窟 本 2 士 
return sum; 环 之 则 清空 本 地 结 


} 果 缓 存 


5.3.3 实现 endpoint 客户 端 


随 着 定制 endpoint 的 服务 器 部 分 完成 ， 该 构建 它 的 客户 端 部 分 
你 可 以 把 这 部 分 代码 放 进 之 前 建立 的 RelationsDAO 里 。 需 
要 传 入 userId 来 进行 查询， 根据 接口 的 定义 这 是 很 清楚 的 。 但 是 这 张 表 
es i 要 知道 行 键 的 范围 ， 协 处 理 强 会 基于 这 个 范围 被 调用 。 这 个 范 
会 被 转换 成 需要 调用 协 处 理 句 的 一 i pe 客户 端 被 计 
We， 在 转换 得 到 这 组 region 后 ， 这 部 分 代码 就 和 客户 端的 扫描 器 范 
围 计算 是 相同 的 了 : 


构造 起 始 键 
final byte[] startKey = Md5Utils.md5sum(userId); <— 
final byte[] endKey = Arrays.copyOf (startKey, startKkey.length); 
endKey [endKey .length-1]++; < 一 一 ee 

i 和 结束 键 


有 趣 的 地 方 在 于 聚合 结果 。 执 行 endpoint 是 一 个 三 部 曲 。 第 一 步 是 
定义 Cal 对 象 。 这 个 实例 完成 调用 特定 endpoint 的 工作 ， 
RelationCountProtocol 的 细节 完全 被 包含 在 里 面 。 你 可 以 定义 一 个 匿名 
的 内 联 Call 实 例 : 

Batch.Call<RelationCountProtocol, Long> callable = 
new Batch.Call<RelationCountProtocol, Long>() { 
@Override 
public Long call (RelationCountProtocol instance) 
throws IOException { 
return instance.followedByCount (userId).,， 
} 
}; 

第 二 步 是 调用 endpoint。 这 可 以 从 HTableInterface 直 接 调用 : 
HITableInterface followers = pool.getTable (TABLE NAME) ; 
Map<bytel[], Long> results = 

followers.coprocessorExec\( 
RelationCountProtocol.class, 
startKey, 
endKey, 
callable); 


当 客 户 端 代码 执行 coprocessorExec() 方 法 时 ， HBase 客户 端 基于 起 
始 键 (startKey) 和 结束 键 (endKey) 把 调用 发 送 给 合适 的 
RegionServer。 在 这 种 情况 下 ， 按 照 region 的 分 配 情况 拆 分 扫 摘 艺 围 ， 
只 把 调用 发 送 给 相关 的 节点 。 

执行 endpoint 的 最 后 一 步 是 聚合 结 采 。 客 户 端 从 每 个 被 调用 的 
RegionServer 上 接收 响应 信息 ， 并 且 加 总 结果 。 如 下 所 示 ， 基 于 <region 


名 字 ， 值 > 的 数据 对 执行 循环 ， 并 加 总 结果 : 

long sum = 0;，; 

for (Map.Entry<byte[], Long> e : results.entrySet()) 1 
sum += e.getValue() .longValue () ; 


} 

这 样 你 殴 有 了 一 个 简单 的 分 散 聚 合计 算 方法 。 对 于 本 例 而 言 ， 由 
于 使 用 的 数据 量 很 少 ， 客 户 端 扫描 和 在 endpoint 里 实现 的 扫描 执行 速度 
差不多 快 。 但 是 客户 端 扫描 消耗 的 网 络 IO 会 随 着 扫 措 的 行 数 增长 而 线 
性 增长 。 当 扫 摘 被 推 到 endpoint 上 时 ， 你 不 必 把 扫 摘 结果 返回 给 客户 端 

(只 返回 计算 处 理 后 的 值 ) ， 从 而 节省 了 网 络 IO。 另 一 件 事 情 是 ， 

endpoint 协 处 理 需 在 所 有 包含 相关 行 的 region 上 并 行 执行 。 而 客户 端 扫 
描 很 可 能 是 一 个 单线 程 扫 摘 。 把 它 变 成 多 线程 和 中 region 分 布 会 市 来 管 
理 分 布 式 应 用 系统 的 复杂 性 ， 我 们 前 面 讨论 过 这 一 点 。 

从 长 期 来 看 ， 把 扫 摘 下 推 到 带 有 endpoint 有 的 RegionServer 会 溃 来 一 
些 部 署 的 复杂 性 ， 但 是 其 执行 速度 比 传统 的 客户 端 扫描 要 快 得 多 。 

完整 的 客户 端 代 码 如 代码 清单 5-3 所 示 。 

代码 清单 5-3 endpoint 的 客户 端 部 分 从 RelationsDAO.java 里 下 选 
的 片段 


public long followedByCount (final String userId) throws Throwable { 
HTableInterface followed = pool.getTable (FOLLOWED TABLE NAME); 构造 起 始 


final byte[] startKey = Md5ULtils.mdq5sum(userIQ) ; 键 ……- 
final byte[] endKey = Arrays.copyOf (startKey, StartKey.1LIength) ; RE 
endKeylendKey.length-1]++; | 和 


Batch.Call<RelationCountProtocol, Long> callable = 结束 键 
new Batch.Call<RelationCountProtocol, Long>() { 
@Override 
public Long call{(RelationCountProtocol instance) 第 1 步 : 定义 
throws IOException { Call 实例 
return instance.followedByCount (userId); 

} 

二 


Map<byte [] ，Long> results = 第 2 步 : 调用 
followed.coprocessorExec( | 
RelationCcountProtocol .class， 
startKey, 
endrey, 
callable); 


endpoint 


long sum = 0; 
for(Map.Entry<byte[], Long> e : results.entrySet()) { 


sum += e.getValue () .1ongValue () ; 
} 第 3 步 : 聚合 来 自 各 个 


return sum; 
’ RegionServer 的 结果 


5.3.4 部 署 endpoint 服务 器 


现在 服务 器 部 分 准备 好 了 ， 让 我 们 开始 部 署 它 。endpoint 和 
observer 的 例子 不 同 ， 它 必须 通过 配置 文件 进行 部 署 。 你 必须 编辑 两 个 
文件 ， 它 们 都 在 $HBASE_HOME/conf 目 录 下 可 以 找到 。 第 一 个 是 
hbase-site.xml。 在 hbase.coprocessorregion. classes 属 性 里 增加 


RelationCountImpl: 
Dropertys 
<name>hbase.coprocessor.region.classes</name> 
<value>HBaseIA.TwitBase.coprocessors.RelationCountImpl</value> 
</property> 


你 还 需要 确保 HBase 能 够 发 现 这 个 新 类 。 这 意味 着 也 要 更 新 hbase- 
env.Sh 文 件 。 在 HBase 类 路 径 里 增加 你 的 应 用 JAR 包 : 


export HBASE CLASSPATH=/path/to/hbaseia-twitbase/target/twitbase-1.0.0.jar 


5.3.5 试 运行 


能 够 正常 工作 吗 ? 让 我 们 斌 试看。 先是 重建 代码 ， 然 后 重启 
HBase， 以 便 新 的 配置 信息 生效 。 你 已 经 存储 了 一 个 关系 ， 再 添加 一 
个 。 你 只 需要 定义 一 个 方向 的 关系 ， 你 的 observer 已 经 被 登记 过 ， 它 会 
自动 更 新 倒序 关系 的 索引 : 


$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool follows GrandpaD SirDoyle 
Successfully added relationship 


现在 验证 这 些 天 系 是 否 准 备 束 绪 ， 试 试 你 的 endpoint: 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool list followedBy SirDoyle 
<Relation: SirDoyle <- TheRealMT> 
<Relation: SirDoyle <- GrandpaD> 
$ java -cp target/twitbase-1.0.0.jar \ 
HBaseIA.TwitBase.RelationsTool followedByCoproc SirDoyle 
SirDoyle has 2 followers. 


工作 正常 ! 不 仅 你 的 observer 更 新 了 关注 关系 的 倒序 关系 ， 而 且 你 
能 在 创建 记录 的 时 间 里 快速 得 到 粉丝 数量 。 


5.4 小 结 


协 处 理 器 API 为 HBase 提 供 了 强大 的 扩展 能 力 。observer 可 以 让 你 对 
数据 处 理 过 程 进行 精细 的 控制 。endpoint 人 允许 你 在 HBase 里 建立 定制 的 
API。HBase 的 协 处 理 器 特性 还 比较 新 ， 用 户 仍然 在 摸索 如 何 使 用 这 个 
特性 。 它 们 也 不 是 用 来 取代 精心 设计 的 表 模 式 。 不 过 ， 协 处 理 器 是 工 
具 箱 中 一 个 灵活 的 工具 ， 可 以 帮助 你 摆脱 困境 。 探 索 协 处 理 器 强大 威 
力 的 唯一 方法 是 搭建 一 个 应 用 系统 ! 


Y 


6 J HBase ) 


本 章 涵盖 的 内 容 

加 创建 HBase Shell 脚 本 

加 合用 JRuby 进行 Shell 编程 

四 使 用 asynchbase 

四 使 用 REST 网 关 

四 使 用 Thrift 网 关 

到 目前 为 止 ， 我 们 介绍 的 所 有 与 HBase 的 交互 都 聚焦 在 使 用 Java 客 
户 端 API 和 随 HBase 附 带 的 函数 库 。Java 是 Hadoop 广 前 家 族 DNA 的 核心 
部 分 ， 不 可 轻易 分 开 。Hadoop 是 用 Java 编 写 的 ，HBase 是 用 Java 编 写 
的 ， 原 生 的 HBase 客 户 端 也 是 用 Java 编 写 的 。 这 里 有 一 个 问题 : 你 可 能 
不 用 Java。 你 可 能 不 喜欢 JVM， 但 你 仍然 想 使 用 HBase。 怎 么 办 呢 ? 
HBase 给 你 提供 了 其 他 不 使 用 Java 的 客户 端 选择 (基于 JVM 的 和 不 基于 
JVM 的 ) 。 

在 本 章 中 你 会 看 到 如 何 使 用 其 他 方式 访问 HBase。 每 一 下 将 介绍 一 
种 客户 端 ， 并 演示 一 个 使 用 这 种 客户 端的 小 型 鸣 、 功 能 齐全 的 应 用 。 
每 个 小 应 用 使 用 不 同类 型 的 客户 端 与 HBase 通 信 。 每 一 节 采 用 同样 的 结 
构 : 先 介 绍 内 容 ， 然 后 安装 必要 的 文 撑 库 ， 一 步 一 步 搭建 应 用 ， 最 后 
总 结 结果 。 每 个 应 用 彼此 独立 ， 所 以 你 可 以 直接 跳 到 你 觉得 有 用 的 章 
玫 。 本 章 没有 介绍 新 的 理论 或 者 HBase 的 内 部 工作 机 制 ， 只 是 介绍 了 
基于 非 Java 和 非 JVM 语 言 使 用 HBase 的 从 单 诀 穹 。 

本 章 从 研究 其 他 在 线 访问 HBase 的 方式 开始 。 首 先 你 会 看 到 如 何 
通过 UNIX Shell 脚 本 从 外 部 访问 HBase; 接 下 来 你 会 看 到 如 何 使 用 
JRuby 接 口 ，HBase Shell 束 是 在 JRuby 上 实现 的 ， 此 后 你 将 研究 
asynchbase， 它 是 专门 为 异步 访问 设计 的 男 一 种 Java 客 户 端 库 ;， 最 后 按 
照 承 诺 你 会 抛 开 Java 和 JVM， 探 索 HBase 的 REST 和 Thrift 网 关 ， 在 这 里 
将 分 别 使 用 Curl 和 Python 语言 。 


6.1 在 UNIX 里 使 用 HBaseShell 


对 HBase 编程 的 最 简单 办 法 是 使 用 HBase Shell 脚本 。 在 前 面 的 章 
节 中 已 经 简单 介绍 了 如 何 使 用 Shell。 现 在 你 可 以 使 用 那些 知识 来 创建 
一 个 有 用 的 工具 。 每 种 数据 库 安 装 都 需要 维护 它 的 模式 ，HBase 也 不 例 
外 。* 

在 关系 型 世界 里 ， 模 式 迁 移 的 管理 是 个 头疼 的 问题 。 泛 泛 地 说 ， 
这 种 头疼 来 自 于 两 个 方面 。 第 一 个 是 模式 和 应 用 的 紧 耦 合 关系 。 如 果 
你 打算 为 一 个 已 有 实体 增加 一 个 新 属性 ， 通 常 意味 着 在 表 里 某 个 地 方 
增加 一 个 新 列 。 当 你 做 一 个 新 产品 时 ， 尤 其 是 在 一 个 新 公司 里 ， 快 速 
友 代 的 方式 对 于 应 用 的 成 功 来 说 至 关 重 要 。 但 是 ， 在 使 用 关系 型 数据 
库 时 ， 增 加 一 个 新 列 需 要 改变 模式 。 随 着 时 间 过 去 ， 你 的 数据 库 模式 
变 成 了 初始 设计 加 上 每 次 增 量 变化 的 上 总和。 主流 天 系 型 系统 不 适合 管 
理 这 些 变化 ， 因 此 这 些 变 化 变 成 了 软件 工程 的 工作 。 一 些 天 系 型 数据 
库 随机 附带 了 强大 的 工具 来 管理 这 些 问 题 ， 但 是 很 多 数据 库 没 有 提供 
这 种 工具 。 这 又 给 我 们 带 来 了 第 二 个 头疼 的 问题 。 

这 些 变化 经 常 采用 称 作 迁移 (migration) 的 SQL 脚本 形式 。 因 为 每 
个 脚本 建立 在 上 一 个 脚本 的 基础 上 ， 所 以 它们 需要 按 顺 序 执行 。 对 于 
一 个 长 期 的 、 成 功 的 、 数 据 驱 动 的 应 用 系统 ， 通 常 你 会 找到 一 个 包含 
数 十 甚至 数 百 个 这 种 脚本 文件 的 模式 文件 夹 。 每 个 脚本 文件 的 名 字 以 
标志 它 在 迁移 序列 里 位 次 的 数字 开头 。 还 有 更 复杂 一 些 的 迁移 管理 ， 
但 是 它们 根本 上 都 是 按照 正确 顺序 执行 这 些 迁 移 脚 本 的 工具 。 

HBase 也 有 需要 管理 的 模式 。 第 一 个 问题 对 HBase 来 说 是 个 小 问 
题 。 在 一 个 列 族 里 ， 列 不 需要 预先 定义 。 在 这 种 情况 下 ， 应 用 系统 
以 一 点 一 点 地 改变 ， 而 不 需要 改变 HBase 模 式 。 但 是 ， 如 果 增 加 一 个 新 
列 族 ， 或 者 改变 已 有 列 族 的 属性 ， 或 者 增加 一 张 新 表 ，HBase 还 是 需要 
改变 模式 的 。 你 可 以 为 每 次 模式 迁移 创建 一 个 定制 的 应 用 ， 但 是 这 是 


很 糟糕 的 做 法 。 相 反 ， 你 可 以 通过 HBase Shell 脚本 编程 来 复制 关系 型 
系统 使 用 的 模式 迁移 管理 计划 。 本 节 将 介绍 如 何 创建 这 些 脚本 。 

你 可 以 在 TwitBase 项 目 源 代码 里 找到 本 市 使 用 的 完整 的 
init_twitbase.sh 脚 本 ， 参 见 
https://github.com/hbaseinaction/twitbase/blob/master/ 


bin/init_twitbase.sh ° 
6.1.1 HBase Shell 


HBase Shell 作为 HBase 默认 安装 的 一 部 分 随机 预 装 。 它 通过 
$HBASE_HOME/bin/hbase 脚 本 来 启动 。 根 据 你 安装 HBase 的 方式 ， 
个 脚本 还 可 能 在 你 的 $PATH 变 量 路 径 里 。 如 同 在 第 1 章 中 看 到 的 ， 
Shell 如 下 所 示 : 

$ S$HBASE HOME/bin/hbase shell 


你 会 进入 Shell 应 用， 并 收 到 一 条 欢迎 辞 : 
HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 
Version 0.92.1, rl1298924, Fri Mar 9 16:58:34 UTC 2012 


hbase (main) :001:0> 


现在 你 已 经 核实 了 Shell 用 ， 可 以 开始 处 理 脚 本 编程 了 。 
6.1.2 UNIX Shell 他 


在 前 面 学 习 HBase 时 ， 你 还 处 在 开发 TwitBase 应 用 系统 的 开始 阶 
段 。 你 为 TwitBase 做 的 第 一 件 事 情 是 使 用 HBase Shell 创建 一 张 users 
表 。 随 着 TwitBase 扩展 ， 你 的 模式 也 扩展 了 。 不 久 又 出 现 了 Twits 表 和 
Followers 表 。 这 些 表 的 所 有 管理 代码 都 积累 在 InitTables 类 里 。 因 为 
Java 有 些 喝 嗪 ， 并 且 需 要 为 每 次 模式 迁移 创建 一 个 定制 的 应 用 ， 对 于 
模式 管理 而 言 Java 不 是 一 种 方便 的 语言 。 让 我 们 用 HBase Shell 命令 重 
新 构思 这 些 代码 。 


在 InitTables 里 创建 表 的 代码 的 主体 对 于 每 张 表 而 言 看 起 来 大 部 分 
年 相同 的 : 


System.out .println("Creating Twits table..."); 

HTableDescriptor desc = new HTableDescriptor (TwitsDAO.TABLE _ NAME) ; 
HColumnDescriptor C = new HColumnDescriptor (TwitsDAO.INFO FAM); 
c.setMaxVersions (1) ; 

desc.addFamily(c); 

admin.createTable (desc); 

System.out .println("Twits table created."),，; 


你 可 以 使 用 Shell 达 到 同样 的 效果 : 
hbase (main) :001:0> create 'twits', {NAME => 't', VERSIONS => 1)} 
0 row(s) in 1.0500 seconds 


关于 JRuby 的 一 点 解释 

如 果 你 熟悉 Ruby 编程 语言 ，create 命令 看 起 来 特别 像 是 一 个 函数 
调用 。 这 就 是 函数 调用 。HBase Shell 是 用 JRuby 实现 的 。 本 章 后 面 我 
们 会 了 解 更 多 与 JRuby 的 这 种 联系 。 

5 行 Java 代码 被 缩短 为 一 行 Shell 命 令 ? 看 起 来 不 错 。 现 在 你 可 以 取 
出 HBase Shell 命 令 ， 把 它 封装 到 一 个 UNIX Shell 脚本 里 。 注 意 ， 如 果 
hbase 命令 不 在 你 的 $PATH 变量 路 径 里 ， 命 令 行 exec hbase shell 可 能 会 


有 些许 不 同 。 处 理 这 件 事情 的 最 终 脚 本 如 代码 清单 6-1 所 示 。 
BENT/ASE 


exec $HBASE HOME/bin/hbase shell <<EOF 

create 'twits', {NAME => 't', VERSIONS => 1)} 

EOF 

把 其 他 表 添加 到 脚本 里 很 容易 : 

exec $HBASE HOME/bin/hbase shell <<EOF 
create 'twits', {NAME => 't', VERSIONS => 1} 
create 'users', {NAME => 'info'} 
create 'followes', {NAME => 'f', VERSIONS => 1)} 
create 'followedBy', {NAME => 'f', VERSIONS => 1)} 
EOF 


至 此 ， 你 已 经 把 表 和 列 族 名 字 都 从 Java 里 转移 出 来 了 。 在 命令 行 上 


履 盖 这 些 名字 现 在 更 容易 了 : 
#!/bin/sh 


TWITS TABLE=${TWITS TABLE-'twits'} 
TWITS FAM=${TWITS FAM-'t'} 


exec S$HBASE HOME/bin/hbase shell <<EOF 

create '$TWITS TABLE', {NAME => '$TWITS FAM', VERSIONS => 网 
create 'users', {NAME => 'info'} 

create 'followes', {NAME => 'f', VERSIONS => 1} 

create 'followedBy', {NAME => 'f', VERSIONS => 1} 

EOF 


如 果 进 一 步 更 新 脚本 代码 ， 从 一 个 配置 文件 里 读 出 那些 常量 ， 你 
就 可 以 把 整个 模式 定义 从 Java 代码 里 移出 来 了 。 现 在 你 可 以 在 同一 个 
HBase 集群 上 轻松 地 测试 基于 不 同 表 的 TwitBase 的 不 同 版 本 。 这 种 灵活 
性 会 大 大 简化 把 TwitBase 推 向 生产 系统 的 过 程 。 完 整 的 脚本 如 代码 清单 
6-1 所 示 。 

代码 清单 6-1 取代 InitTables.java 的 UNIX Shell 脚 本 


#!/bin/sh 
HBASE CLI="$HBASE HOME/bin/hbase" 找到 hbase 
test -n "S$HBASE HOME" || { 命令 的 位 置 
echo >&2 'HBASE HOME not set. using hbase on $PATH' 
HBASE CLI=$ (which hbase) 
| 确定 表 和 列 


TWITS TABLE=${TWITS TABLE-'twits'} 族 的 名 字 
TWITS FAM=${TWITS FAM-'t'} 
USERS TABLE=${USERS TABLE-'users'} 
USERS FAM=$ {USERS FAM-'info'} 
FOLLOWS_ TABLE=$ {FOLLOWS TABLE-'follows'} 
FOLLOWS_ FAM=$ {FOLLOWS FAM-'f'} 
FOLLOWEDBY_ TABLE=$ {FOLLOWED TABLE-'followedBy'} 
FOLLOWEDBY FAM=$ {FOLLOWED FAM-'f'} 
so 


exec "$HBASE CLI" shell <<EOF 


create !STNITS_TRBLE ' ， 
{NAME => '$TWITS FAM', VERSIONS => 1} 


create '$USERS TABLE', 
{NAME => 'S$USERS FAM'} 


create '$FOLLOWS TABLE', 
{NAME => '$FOLLOWS FAM', VERSIONS => 1} 


create '$FOLLOWEDBY TABLE', 
{NAME => '$FOLLOWEDBY FAM', VERSIONS => 1} 
EOF 


这 是 一 个 入 门 ， 教 你 如 何 使 用 HBase Shell 来 创建 让 HBase 部 署 中 
的 管理 任务 变 得 轻松 的 脚本 。HBase Shell 不 是 作为 HBase 的 主要 访问 
方式 来 使 用 的 ， 这 意味 着 不 会 基于 HBase Shell 搭建 整个 应 用 系统 。 
HBase Shell 自身 是 一 个 在 JRuby 上 创建 的 应 用 ， 接 下 来 我 们 学 习 一 下 
JRuby ° 


6.2 使 用 JRuby 进 行 HBaseShell 编 程 


HBase Shell 提 供 了 一 个 方便 的 交互 环境 ， 足 以 满足 许多 简单 的 管 
理 任务 。 但 是 ， 对 于 更 复杂 的 操作 ， 它 变 得 见长 乏味 。 如 同 我 们 在 上 
一 节 提 到 的 ，HBase Shell 是 用 JRuby [3 实现 的 。 其 背后 是 一 个 很 好 的 
库 ， 它 把 HBase 客 户 端 开放 给 了 JRuby。 你 可 以 在 自己 的 脚本 里 使 用 这 
个 库 在 HBase 上 创建 更 复杂 的 自动 化 操作 。 本 例 中 ， 你 将 创建 一 个 工具 
来 访问 TwitBase 的 users 表 ， 类 似 于 你 用 Java 编 写 的 UsersTool。 这 会 让 你 
体会 从 JRuby 访 问 HBase 的 感受 。 

通过 JRuby 接 口 进行 HBase 编 程 从 复杂 性 来 说 比 Shell 编 程 更 进 一 
步 。 如 果 你 发 现 自己 在 编写 复杂 的 Shell 脚本 ，JRuby 应 用 可 能 是 更 好 
的 方式 。 如 果 因 为 某 种 原因 你 需要 使 用 Ruby 的 C 实 现 而 不 是 JRuby 

(Ruby 的 Java 实 现 ) ， 你 应 该 研究 一 下 Thrift。 我 们 在 本 章 后 面 会 演示 

通过 Python 使 用 Thrift， 通 过 Ruby 使 用 Thrift 也 是 类 似 的 。 


你 可 以 在 TwitBase 项 目 源 代码 里 找到 本 市 使 用 的 完整 的 
TwitBase.jrb 脚 本 ， 参 见 
https://github.com/hbaseinaction/twitbase/blob/master/bin/ TwitBase.jrb ° 


6.2.1 HBase Shell 


局 动 JRuby 应 用 的 最 简单 方式 是 通过 已 有 的 HBase Shell。 如 琳 你 还 
没有 这 样 做 ， 请 按照 上 一 节 开始 时 的 指导 找到 Shell 命 令 的 位 置 。 

一 旦 找到 hbase 命 令 ， 你 就 可 以 把 它 作 为 自己 脚本 的 解释 器 。 因 为 
hbase 命 令 处 理 导 入 必需 的 库 和 实例 化 你 需要 的 类 ， 这 是 特别 有 用 的 。 
首先 我 们 创建 一 个 脚本 来 列 出 所 有 的 表 。 这 个 脚本 叫做 TwitBase.jrb: 

def list tables() 
@hbase.admin (@formatter) .list.each do |t 
puts 七 
end 
end 


list tables 
exit 
变量 @hbase 和 @formatter 是 Shell 为 你 创建 的 两 个 实例 。 它 们 是 
你 要 使 用 的 JRubyAPI 的 一 部 分 。 现 在 测试 一 下 这 上段 脚本 : 
$ $HBASE HOME/bin/hbase shell ./TwitBase.jrb 
followers 
twits 
users 


一 切 就 绪 ， 让 我 们 开始 处 理 TwitBase 。 


为 Shell 编 写 代码 的 一 个 好 处 是 很 容易 检验 代码 。 局 动 Sshell， 癸 究 
一 下 这 种 API。 扫 描 users 表 和 需要 该 表 的 一 个 句柄 和 一 个 扫描 絮 。 先 从 获 
取 句 柄 开始 : 


$ hbase shell 


hbase (main) :001:0> users table = @hbase.table('users', @formatter) 
=> #<Hbase::Table:0x57cae5b7 @table=...>> 


下 面 为 这 张 表 创建 一 个 扫描 器 。 使 用 常规 的 散 列 来 指定 扫描 器 的 
选项 。 扫 描 器 构造 函数 在 该 散 列 里 寻找 几 个 指定 的 键 ， 包 
括 "STARTROW"、"STOPROW" 和 "COLUMNS"， 然 后 扫描 所 有 用 户 ， 
只 返回 他 们 的 用 户 名 、 名 字 和 电子 邮件 地 址 : 


hbase (main) :002:0> scan = {"COLUMNS" => ['info:user', 'info:name', 
'info:email']} 
= {"COLUMNS"=>["info:user", "info:name", "info:email"]} 
hbase (main) :003:0> users table.scan(scan) 
=> {"GrandpaD"=> 
{"info:email"=>"timestamp=1338961216314, value=fyodor@brothers.net", 
"info:name"=>"timestamp=1338961216314, value=Fyodor Dostoyevsky", 
"info:user"=>"timestamp=1338961216314, value=GrandpaD"}, 
"HMS_Surprise"=> 
{"info:email"=>"timestamp=1338961187869, value=aubrey@sea .com", 
"info:name"=>"timestamp=1338961187869, value=Patrick O'Brian", 
"info:user"=>"timestamp=1338961187869, value=HMS Surprise"}, 
"SirDoyle"=> 
{"info:email"=>"timestamp=1338961221470, 
value=art@TheQueensMen.co.uk", 
"info:name"=>"timestamp=1338961221470, value=Sir Arthur Conan Doyle", 
"info:user"=>"timestamp=1338961221470, value=SirDoyle"}, 
"TheRealMT"=> 
{"info:email"=>"timestamp=1338961231471, value=samuel@clemens .org", 
"info:name"=>"timestamp=1338961231471, value=Mark Twain", 
"info:user"=>"timestamp=1338961231471, value=TheRealMT"}} 


现在 你 需要 遍历 扫描 器 生 成 的 键 值 对 。 是 开始 创建 这 个 脚本 的 时 
候 了 。 

这 个 API 里 有 一 个 稍微 偏离 主题 的 地 方 ，scan() 的 数据 块 版 本 把 每 
个 列 浓缩 进 了 "column=..., timestamp=.…, Value=..." 格 式 的 字符 串 里 。 需 
要 从 字符 串 里 解析 出 你 感 兴趣 的 数据 〈 限 定 符 名 字 和 值 ) ， 然 后 积累 
到 结果 里 : 


Scan = {"COLUMNS" => ['info:user', 'info:name', 'info:email']} 
results = {} 
users table.scan(scan) do |row,col| 

unless results [row] 


results[row] = {} 
end 解析 KeyValue 
m = /^.*info: (.*), t.*value=(.*)$/.match (col) 结果 
results[row] [m[1]] = m[2] it m 
end 


使 用 正则 表达 式 从 扫描 结果 里 只 抽取 出 列 限 定 符 和 单元 值 ， 然 后 
把 这 些 数 据 积 素 存放 到 结 采 散 列 里 ， 最 后 一 步 是 对 结 采 进行 格式 化 输 
出 : 


results.each do |row,vals| 
© 


puts "<User %s, %s, %s>" % [vals['user'], vals['name'], vals['email']!] 
end 


现在 你 有 了 完成 这 个 例子 需要 的 所 有 代码 。 把 它们 封装 到 main() 范 
数 ， 然 后 发 布 ! 最 终 的 TwitBase.jmb 脚 本 如 代码 清单 6-2 所 示 。 
代码 清单 6-2 TwitBase.jrb: 进行 HBase Shell 编 程 


def list users() 连接 到 表 | 

users table = @hbase.table('users', @formatter) a 

scan = {'"COLUMNS" => ['info:user', 'info:name', 'info:email']} 扫描 感 兴 

results = {} 趣 的 列 

users table.scan(scan) do |row,col| < 
results[row] ||= {} 
m = /^.*info:(.*), t.*value=(.*)$/.match(col) 解析 KeyValue 
results[row] [m[1]] = m[2] it m 结果 

end | 


results.each do |row,vals| 
puts "<User %s, %s, %s>" % [vals['user'], vals['name'], vals['email']] 
end 


end 打印 输出 
def main (args) 用 户 行 
if args.length == 0 || args[0] == 'help' 
puts <<EOM 


TwitBase.jrb action ... 
help - print this message and exit 
list - list all installed users. 
EOM 
exit 
end 


if args[0] == "list' 


list users 
end 


exit 
end 


main (ARGYV) 

脚本 完成 以 后 ， 把 它 设 置 成 可 执行 文件 ， 试 运行 一 下 : 
$ chmod a+x TwitBase.jrb 
$ ./TwitBase.jrb list 
<User GrandpaD, Fyodor Dostoyevsky, fyodor@brothers.net> 
<User HMS Surprise, Patrick O'Brian, aubrey@sea.com> 
<User SirDoyle, Sir Arthur Conan Doyle, art@TheQueensMen.co.uk> 
<User TheRealMT, Mark Twain, samuel@clemens .org> 

这 就 是 全 部 内 容 了 。 使 用 JRuby 接 口 进行 编程 是 在 HBase 上 搭建 原 
型 系统 或 者 目 动 化 处 理 常 用 任务 的 一 种 简易 方式 。 它 建立 在 前 面 章 万 
使 用 的 相同 的 HBase Java 客户 端 上 。 对 于 接 下 来 的 应 用 示例 ， 我 们 将 
完全 抛 开 JVM。HBase 提 供 了 REST 接 口 ， 我 们 将 在 命令 行 上 使 用 Curl 
演示 这 种 接口 。 


6.3 通过 REST 访 问 HBase 


阻止 人 们 体验 HBase 的 因素 之 一 是 它 和 Java 的 紧密 关系 。 对 于 愿意 
使 用 HBase 但 是 不 想 在 应 用 系统 里 使 用 Java 的 人 来 说 ， 还 有 几 种 其 他 的 
选择 。 无 论 你 是 在 研究 HBase 还 是 希望 把 HBase 集 群 直接 交 给 应 用 开发 
人 员 ，REST 接 口 可 能 都 是 个 合适 的 选择 。 对 于 外 行 凤 1 来 说 ，REST 是 
和 网 络 上 的 对 象 进行 交互 的 惯例 。HBase 预 装 了 REST 服 务 ， 你 可 以 用 
其 来 访问 HBase， 不 需要 Java 。 

REST 服 务 作为 一 个 独立 的 进程 运行 ， 使 用 我 们 前 面 研究 过 的 同样 
的 客户 端 API 与 HBase 通 信 。 它 可 以 运行 在 任何 能 够 与 HBase 通 信 的 机 
器 上 。 这 意味 着 你 可 以 启动 一 组 REST 服 务 机 器 来 服务 于 你 的 HBase 集 


群 。 这 种 扫描 器 API 是 有 状态 的 ， 它 需要 资源 分 配 信息 ， 只 有 收 到 请 求 
的 REST 机 器 才 拥 有 这 种 信息 。 这 意味 着 使 用 扫描 器 的 客户 端 在 使 用 那 
个 扫描 时 总 是 需要 返回 到 同一 台 REST 主 机 。 一 个 REST 接 口 部 署 的 网 
络 拓扑 大 致 如 图 6-1 所 示 。 

还 有 其 他 选择 吗 ? 真 的 吗 ? 

你 拒绝 使 用 Java， 也 拒绝 使 用 REST? 你 真是 无 可 救 药 了 ! 别 担 
心 ，HBase 还 有 一 个 解决 方案 一 一 Thrift。 实 践 中 ，REST 服 务 很 少 用 于 
关键 应 用 系统 。 相 反 ， 你 可 以 使 用 Thrift 服 务 。 下 一 世人 全 面 介 绍 Thrift: 
一 个 Python 应 用 通过 Thrift 与 HBase 通 信 。 


『 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


HBase 客 户 端 REST 网 关 


| 


图 6-1 REST 网 基部 署 。 所 有 客户 端 活动 像 漏斗 一 样 从 这 个 网 关 通 
过 ， 大 大 制约 了 客户 端的 吞吐 量 。 一 组 REST 网 关机 器 可 以 减缓 这 种 局 
限 性 。 但 是 一 组 机 器 带 来 了 新 的 限制 ， 迫 使 客户 端 只 能 使 用 API 中 无 状 
态 的 部 分 
REST 服务 还 支持 很 多 种 啊 应 格式 ， 由 Content-Type 请 求 控 制 。 所 
有 端点 支持 XML、JSON 和 Protobufs。 许 多 状态 和 管理 端点 还 支持 纯 
文本 。 可 以 使 用 的 合适 的 首部 值 是 text/plain 、text/xml 、 


application/json 、 application/x-protobuf 和 Napplication/octet-stream ° 


6.3.1 局 动 HBase REST 


先 从 局 动 REST 服务 开始 。 你 需要 安装 HBase 并 进行 正确 配置 。 使 
用 与 局 动 Shell 一 样 的 hbase 基 本 命令 ， 把 该 服务 运行 为 一 个 活动 进程 。 


$ hbase rest 


usage: bin/hbase rest start [-p <arg>] [-ro] 


-p,--port <arg> Port to bind to [default: 8080] 
-ro,--readonly Respond only to GET HTTP method requests [default: 
falsel 


启动 REST 服 务 ， 监 听 端 口 9999， 如 下 所 示 : 
$ hbase rest start -P 9999 


INFO mortbay.l1og: Jetty-6.1.26 

INFO mortbay.l1og: Started SocketConnector@0.0.0.0:9999 
打开 一 个 新 终端 并 发 出 一 个 简单 的 curl 命 令 来 验证 REST 服 务 局 动 

和 运行 了 。 现 在 所 有 人 都 在 使 用 JSON， 所 以 你 也 试 试 。 我 们 甚至 擅自 

为 你 的 环境 整理 了 输出 信息 。 


$ curl -H "Accept: application/json" http://localhost:9999/version 


{ 


"JVM": "Apple Inc. 1.6.0 31-20.6-b01-415", 


"Jersey™: "1i4", 

“OSs "Mac O08 X 10.7.4 ‘X86 64", 
nSTs sy WOu0u2n. 

"Server": "jetty/6.1.26" 


这 是 REST 服 务 的 短 输出 版 本 。 如 果 需 要 底层 集群 的 信息 ， 你 要 单 


独 申请 : 
$ curl -H ... http://localhost:9999/version/cluster 
1 0 92 _ 1" 


输出 漂亮 的 JSON 

用 来 生成 这 个 输出 片段 的 实际 命令 是 `"curl -H 
"Accept:application/json"http://localhost:9999/version 2>/dev/null | Python- 
mjson.tool"。 我 们 会 继续 粉饰 首部 和 显示 美化 处 理 后 的 输出 ， 即 使 没有 
明确 展示 完整 的 命令 。 


注意 ， 在 第 一 个 终端 窗口 里 REST 服 务 正在 记录 收 到 的 请 求 。 这 便 
于 调试 。 

把 REST 服务 运行 为 后 台 守 护 进程 几乎 一 样 简单 。 根 据 你 的 安 
装 ， hbase-daemon.sh 脚本 可 能 不 在 $PATH 变量 路 径 里 。 如 果 不 在 ， 转 
向 HBase 安装 目录 ，HBASE_HOME/bin。 一 旦 找到 这 个 脚本 ， 启 动 后 
人 台 守 护 进程 如 下 : 


$ hbase-daemon.sh start rest -p 9999 
starting rest, logging to logs/hbase-hbase-rest-ubuntu.out 


再 一 次 ， 验 证 REST 服 务 正 在 正常 运行 。 这 次 请 求 列 出 所 有 表 : 
$ Curl -了 ... http://localhost:9999/ 


| 
table": |[ 
{ 
"name'": "followers" 
ha 
{ 
"name'": "twits" 
和 
{ 
name'": "users" 
} 
] 
} 


现在 你 可 以 试 试 了 。 是 通过 HTTP 访 问 HBase 的 时 候 了 。 


6.3.2 访问 TwitBase 的 users 


REST 服务 已 经 局 动 了 ， 可 以 访问 HBase 了 。 硕 望 查 出 Mark Twain 
的 密码 吗 ? 你 只 需要 用 他 的 行 键 和 列 就 可 以 得 到 这 个 数据 。 想 想 


HBase 的 逻辑 数据 模型 一 一 映 冉 的 映射 ， 很 容易 猜 出 REST URI 征 什 么 


样子 。 构 造 这 个 请 求 : 
$ curl -H ... http://localhost:9999/users/TheRealMT/info:password 
{ 
Row": [ 
{ 
"Cell™: |[ 
{ 
no" : "YWUJMTIz" 
"column": "aW5mbzpwYXNzd29Y2ZRA=="， 
"timestamp": 1338701491422 
} 
J], 
"key": "VGh1IUmVNbEl1U" 


] 


你 要 从 一 张 表 的 一 行 里 取出 一 个 单元 ， 这 束 古 你 接收 到 的 数据 。 
单元 (Cell) 对 象 有 3 个 字段 。 列 (column) 和 时 间 戳 (timestamp) 是 
不 需要 解释 的 ，$ 是 单元 的 值 。 

穿着 JSON 外 衣 的 XML 

这 种 输出 格式 是 真正 的 JSON。 因 为 生成 这 种 输出 格式 和 生成 
XML 都 使 用 相同 的 库 和 规则 ， 它 只 在 几 个 关键 地 方 和 符合 语言 习惯 的 
JSON 有 点 儿 区 别 。$ 字 段 是 这 种 实现 细 世 的 一 个 例子 。 在 写 入 新 信 时 
会 遇 到 另 一 个 例子 : 属性 的 顺序 问题 。 

过 到 疑问 时 ， 请 检查 源 代码 。 用 来 从 REST 服务 取出 数据 的 类 都 
是 有 据 可 查 的 ， 它 们 清楚 地 搬 述 了 它们 期 望 生 成 和 使 用 的 模式 。 

行 键 、 列 和 值 是 HBase 的 全 部 数据 ， 所 以 它们 以 Base64 编 码 字符 串 
形式 返回 。 因 为 你 把 密码 存储 为 简单 的 字符 串 ， 你 可 以 使 用 base64 实 用 
库 解码 数据 得 到 值 : 

$ echo "YWJjMTIz" | base64 --decode 
abc123 


让 我 们 给 Mark 设 置 一 个 高 级 点 儿 的 密码 。 写 入 数据 的 最 简单 方式 
是 发 送 原始 字 节 。 这 次 你 将 指定 Content-Type 首 部 来 标记 你 是 如 何 发 送 
数据 的 。 本 例 中 你 要 写 入 的 值 是 一 个 ASCII 码 字符 串 ， 所 以 并 不 复杂 : 
$ curl -XPUT \ 

-H "Content-Type: application/octet-stream" \ 


http://localhost:9999/users/TheRealMT/info:password \ 
-d '70ON@rI NO 70tORO' 


为 了 继续 使 用 JSON， 你 还 需要 在 发 送 数 据 前 对 数据 进行 Base64 编 
码 。 先 从 编码 新 值 开始 。 确 保 在 echo 命令 后 加 上 -n 选项 ， 否 则 你 会 在 
新 密码 的 尾部 无 意 中 加 上 一 个 换行 符 : 
$ echo -n "70N@rI NO 70t0R0" | base64 
NZBOOHUUIE4wIDcwdDBSMRA== 
现在 发 送 消息 体 。 这 是 一 个 遇 到 属性 顺序 问题 的 例子 。 确保 在 单 
元 (Cell) 对 象 映射 里 最 后 一 行 放 入 $。 不 要 起 了 指定 Content-Type 首 部 
来 标志 你 在 发 送 JSON。 完 整 的 命令 如 下 : 
$ curl -XPUT \ 
-H "Content-Type: application/json" \ 
http://localhost:9999/users/TheRealMT/info:password \ 
| 'f{ 
"ROw®: | 


{ 


“Eel: 


{ 


"column": "aWS5mbzpwYXNzd29yZA==", 
"S$S": "NZBOQHJJIE4wIDcwdDBSMA==" 


} 
]; 


"key": "VGh1UmVNbEl1U" 


REST 服 务 日 志 会 确认 收 到 数据 。 相 应 的 日 志 行 〈 截 短 过 的 ) 看 起 


来 如 同 下 面 这样 : 
rest .ROwResource: PUT http://localhost:9999/users/TheRealMT/info:password 
rest .RowResource: PUT {"totalColumns":1...[{... "vlen":16}]...} 


REST 服 务 也 开放 了 一 个 人 简单 的 列 出 表 的 功能 。 送 到 该 表 的 GET 命 
令 会 得 到 整个 表 的 清音。 相同 的 端点 还 开放 了 使 用 一 个 * 做 前 缀 匹配 的 
基本 过 滤 需 扫描 。 为 了 碍 找 所 有 以 字符 T 开 头 的 用 户 名 字 ， 可 以 使 用 下 
面 的 命令 : 
$ curl -H ... http://localhost:9999/users/T* 


( 
HROWWs | 
{ 


“Cell": | 


js 
"key": "1VGhLUmVhbEB1U" 


}， 
人 


对 于 一 个 更 细 粒 度 的 扫描 ， 你 可 以 在 服务 器 上 实例 化 一 个 扫描 
器 ， 主 它 逐 页 扫 摘 结果 。 例 如， 创建 一 个 扫描 器 查找 用 户 名 小 于 工 的 所 
有 用 户 ， 一 次 翻 页 一 个 单元 。REST 服 务 会 返回 带 着 扫描 器 实例 URI 的 
HTTP 201 Created 响应 代码 。 在 curl 上 使 用 -v 选 项 可 以 看 到 这 个 响应 代 
码 : 


$ echo -n "A" | base64 


$ echo -n "I" | base64 
SQ== 


$ curl -Vv -XPUT \ 
-H "Content-Type: application/json" \ 
http://localhost:9999/users/scanner \ 
-d '{ 
"startROoOwWw": "QQ== 
"endRow": "SQ==", 
rbatehle 1 


} 1 


< HTTP/1.1 201 Created 
< Location: http://localhost:9999/users/scanner/133887004656926fc5b01 
< Content-Length: 0 


“使 用 响应 信息 里 的 位 置 (location) 来 逐 页 要 措 结 果 ， 如 下 所 示 . 


$ curl -H ... http://localhost:9999/users/scanner/133887004656926fc5b01 


{ 
"Row Ff 
{ 


“Os | 


{ 


"S$": "ZnlvZG9yQGJyYb3ROoZXJZLm51dA==" 
"column": "aWSmbzplbWFpbA== 
"timestamp": 1338867440053 


} 
bs 


"key": "R3JhbmRwYUQ=" 


重复 调用 这 个 URI 会 逐 页 返回 连续 的 扫 摘 结果 。 一 旦 行 清音 到头 ， 
下 一 次 调用 扫 摘 絮 实 例会 ee 204 No Content 响应 代码 。 

以 上 是 使 用 HBase REST 网 关 的 要 点 。 如 果 需 要 做 的 不 仅仅 是 对 
HBase 集群 进行 研究 ， 而 是 大 规模 线 上 应 用 ， 你 需要 使 用 Thrift 网 关 。 
下 一 将 研究 Thrift 。 


6.4 通过 Python 使 用 HBaseThrift 网 关 


如 果 你 不 用 Java， 最 常见 的 访问 HBase 的 方法 是 通过 Thrift lH 。 
Thrift 是 一 种 语言 和 一 套 生 成 代码 的 工具 。Thrift 有 一 种 描述 对 象 和 服务 
的 接口 定义 语言 (Interface Definition Language) 。 它 提供 了 一 种 网 络 
协议 ， 使 用 这 些 对 象 和 服务 定义 的 进程 之 间 基 于 这 种 网 络 协议 彼此 进 
行 通信 。Thrift 根 据 你 描述 的 界面 定义 语言 生成 你 喜欢 的 语言 的 代码 。 
使 用 这 种 代码 ， 你 可 以 编写 应 用 ， 通 过 Thrift 提 供 的 通用 语言 与 其 他 应 
用 系统 进行 通信 。 

HBase 随机 预 装 了 描述 服务 层 和 对 象 集合 的 Thrift IDL。HBase 也 
提供 了 实现 接口 的 服务 。 本 节 你 将 生成 Thrift 客 户 端 库 来 访问 HBase 。 
你 将 使 用 客户 端 库 通 过 Python 访问 HBase， 这 种 方式 完全 脱离 了 Java 和 
JVM。 因 为 Python 的 语法 对 于 新 手 和 老手 来 说 都 很 容易 掌握 ， 所 以 我 们 
选择 使 用 Python。 你 可 以 通过 其 他 语言 使 用 同样 的 方式 来 访问 HBase 。 
写 到 这 里 的 时 候 ，Thrift 已 经 支持 14 种 不 同 的 语言 。 

这 个 API 有 些 不 同 

在 某 种 程度 上 ， 由 于 Thrift 想 支持 如 此 多 种 语言 的 野心 ， 它 的 IDL 
相当 简单 。 它 缺乏 在 许多 语言 里 常见 的 特性 ， 如 对 象 继 承 。 因 此 使 用 
HBase Thrift 授 口 和 使 用 我 们 已 经 研究 过 的 Java 客 户 端 API 有 些 不 同 。 

让 Thrift API 更 接近 于 Java 的 工作 茎 .已 经 开始 ， 但 还 只 是 在 进行 
中 。HBase 0.94 里 有 一 个 早期 版 本 ， 但 是 它 缺 乏 一 些 重要 特性 ， 像 过 
滤器 和 使 用 endpoint 协 处 理 器 中 1。 在 这 个 工作 被 完成 时 ， 我 们 这 里 研 
究 的 Thrift API 将 会 停 用 。 

使 用 Thrift API 的 好 处 在 于 对 于 所 有 语言 都 是 相同 的 。 无 论 你 使 用 
PHP、Perl 还 是 C#， 接 口 总 是 一 样 的 。 增 加 到 Thrift API 的 补充 的 HBase 
特性 支持 在 哪里 都 可 以 用 。 


但 Thrift 接 口 也 不 是 没有 限制 。 尤 其 是 ， 它 面临 和 REST 接 口 一 样 的 
否 吐 量 挑 战 。 所 有 客户 端 连接 就 像 漏斗 一 样 通过 和 HBase 集 群 通 信 的 单 
台 机 器 。 因 为 Thrift 客 户 端 在 会 话 持续 期 间 为 一 个 实例 打开 一 个 连接 ， 
所 以 使 用 Thrift 接 口 比 使 用 REST 轻 松 一 些 。 但 是 ， 一 部 分 API 是 有 状态 
的 ， 所 以 断 开 连 接 的 客户 端 在 打开 一 个 新 连接 时 会 丢失 被 分 配 资源 的 
访问 信息 。 一 个 Thrift 接 口 部 署 的 网 络 拓扑 如 图 6-2 所 示 。 


图 6-2 Thrift 接 口 部 署 。 所 有 客户 端 像 漏斗 一 样 通过 接口 ， 大 大 制 
约 了 客户 端 吞 吐 量 。 因 为 Thrift 协 议 是 基于 会 话 的， 使 用 Thrift 接 口 比 
REST 轻 松 一 些 。 
本 练习 使 用 Python 语言 ， 所 以 让 我 们 从 创建 一 个 Python 项 目 开 


始 ， 到 生成 一 个 HBase 客户 端 库 结束 。 该 项 目的 最 终 代 码 可 以 在 
GitHub 里 得 到 ， 参 见 : https://github.com/hbaseinaction/twitbase.py ° 
6.4.1 生成 Python 语言 的 HBase Thrift 客户 端 库 
为 了 建立 Thrift 客 户 冰 库 ， 你 需要 安装 Thrift。 但 是 Thrift 不 没有 打 
包 ， 所 以 你 必须 基于 源 代 码 编译 它 。 因 为 Thrift 可 以 通过 Homebrew [到 
得 到 ， 所 以 在 Mac 机 融 上 这 一 步 融 很 丛 单 : 


$ brew install thrift 


==> Summary 
/usr/local/Cellar/thrift/0.8.0: 75 files, 5.4M, built in 2.4 minutes 


那些 运行 其 他 平台 的 机 器 需要 手工 建立 Thrift。 可 以 查看 Thrift 需 求 


[5S] 文档 来 了 解 针 对 你 的 平台 的 细节 。 
完成 以 后 ， 验 证 你 的 Thrift 已 经 启动 并 且 工 作 正 常 : 
S thrift -version 
Thrift version 0.8.0 
你 希望 不 用 下 载 HBase 源 代码 就 可 以 读 完 这 本 书 ， 对 吗 ? 很 抱 茹 ， 
会 让 你 失望 的 。 如 果 你 需要 Thrift 客 户 端 ， 就 必须 下 载 HBase 的 源 代 
人 码 : 


$ wget http://www.apache.org/dist/hbase/hbase-0.92.1/hbase-0.92.1.tar.g2z 


Saving to: ‘hbase-0.92.1.tar.gz'! 
$ tar xzf hbase-0.92.1.tar.gz 


在 下 载 HBase 源 代码 和 安装 Thrift 后 ， 你 需要 关注 一 个 文件 ， 即 src/ 
main/resources/org/apache/hadoop/hbase/thrift/Hbase.thrift。 这 就 是 朱 壕 
HBase 服务 API 和 有 关 对 象 的 IDL 文 件 。 请 快速 浏览 一 下 这 个 文件 
一 一 Thrift IDL 是 很 容易 读 慌 的 。 现 在 你 准备 好 了 用 来 生成 Python 客 户 
剖 的 所 有 东西 。 

先 给 自己 创建 一 个 项 目 目 录 ， 然 后 生成 HBase 客 户 端 : 


$ mkdir twitbase.py 

$ cd twitbase.py 

$ thrift -gen py ../hbase-0.92.1/src/main/resources/org/apache/hadoop/hbase/ 
thrift/Hbase.thrift 

$ mv gen-py/* . 

$ rm -r gen-py/ 


你 创建 了 一 个 叫做 twitbase.py 的 项 目 ， 然 后 生成 了 HBase Python 
库 。Thrift 在 一 个 叫做 gen-py 的 子 目录 里 生成 它 的 代码 。 把 这 些 文件 移 
动 到 你 的 项 目 里 ， 你 可 以 轻松 把 代码 导入 到 应 用 里 。 看 看 生成 了 什么 
文件 : 


S ELId Am 
a nit. .py 
./hbase 
./hbase/ init .py 
./hbase/constants.py 
./hbase/Hbase-remote 
./hbase/Hbase.py 
./hbase/ttypes.py 
你 还 需要 安装 Thrift Python 库 。 这 些 是 通过 Python 使 用 的 所 有 
Thrift 服 务 的 核心 组 件 ， 所 以 你 可 以 全 局 性 安装 它们 : 
$ sudo easy install thrift==0.8.0 
Searching for thrift==0.8.0 
Best match: thrift 0.8.0 


Finished processing dependencies for thrift 


另外 ， 这 个 库 也 是 你 编译 的 源 代码 的 一 部 分 。 你 可 以 像 处 理 HBase 
客户 端 那样 把 这 些 文 件 复制 到 你 的 项 目 里 。 在 twitbase.py 目 录 下 ， 你 可 


以 复制 这 些 文件 ， 如 下 所 示 : 
Ss mkalir tirift 


S$ er “EE othrifts0.8.0/l1ib/pv/sre/e thrift 
验证 一 切 按照 预期 那样 工作 。 先 局 动 Python， 然 后 导入 Thrift 和 


HBase 库 。 没 有 输出 信息 意味 着 一 切 正常 : 
$ python 
ByENoOn 芝 (2718683257 JU 9 2011; T93053) 


i import: thrift 
>>> import hbase 

确保 在 twitbase.py 目 了 永 下 运行 这 些 命令 ， 否 则 import 语 句 会 失败 。 
当 客户 端 库 准 备 好 以 后 ， 让 我 们 开启 服务 器 组 件 。 


6.4.2 局 动 HBase Thrift 


Thrift 服 务 硕 组 件 已 经 随 HBase 预 闪 了 ， 所 以 它 没有 涉及 客户 端 库 
所 需要 的 安装 过 程 。 可 以 使 用 hbase 命 令 ， 如 同 启动 Shell 一 样 启动 Thrift 
服务 : 


$ hbase thrift 


usage: Thrift [-b <arg>] [-c] [-f] [-h] [-hsha | -nonblocking | 
-threadpool] [-p <arg>] 
-b,--bind <arg> Address to bind the Thrift server to. Not supported by 
the Nonblocking and HsHa server [default: 0.0.0.0] 


= ==COmMmpact Use the compact protocol 

-f,--framed Use framed transport 

-h,--help Print help information 

-hsha Use the THsHaServer. This implies the framed transport. 
-nonblocking Use the TNonblockingServer. This implies the framed 

transport. 
-p,--port <arg> Port to bind to [default: 9090] 
-threadpool Use the TThreadPoolServer. This is the default. 
je 一 、 全 一 一 [3 
先 确 定 HBase 已 经 启动 ， 并 且 正 在 运行 ， 再 局 动 Thrift 服 务 。 默 认 
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设置 应 该 可 以 正当 工作 : 


$ hbase thrift start 


ee starting HBase ThreadPool Thrift server on /0.0.0.0:9090 
在 客户 端 和 服务 需 都 准备 好 以 后 ， 该 测试 它们 了 。 在 twitbase.py 项 


目 目 录 下 打开 一 个 终端 窗口 ， 再 一 次 局 动 Python: 
$ python 
ByEhon 2Z.7.1 (rr271a8G6832% Wul 3 2011; 19%30m53.) 


>>> from thrift.transport import TSocket 

>>> from thrift.protocol import TBinaryProtocol 

>>> from hbase import Hbase 

>>> transport = TSocket.TSocket('localhost', 9090) 

>>> protocol = TBinaryProtocol.TBinaryProtocol (transport) 
>>> client = Hbase.Client (protocol) 

>>> transport .open () 

>>> client.getTableNames () 

['followers', 'twits', 'users'] 


走 到 这 里 花 了 一 些 时 间 ， 但 是 一 切 正 常 工作 ! 现在 可 以 开始 处 理 
正事 儿 了 。 
6.4.3 TwitBase users 
在 开始 编写 代码 之 前 ， 让 我 们 对 解释 器 多 做 些 研 究 ， 来 感受 一 下 
这 种 API。 你 对 扫描 users 表 有 兴趣 ， 所 以 让 我 们 从 扫 摘 器 开始 看 。 碍 看 
Hbase.py 里 的 Hbase.IFace 类 ， 看 起 来 其 中 scannerOpen0 是 最 简单 的 方 
法 。 该 方法 返回 在 Thrift 服 务 器 上 调用 的 扫 摘 器 ID。 让 我 们 测试 一 下 : 


>>> Columns = ['info:user','info:name', 'info:email'] 
>>> Scanner = client.scannerOpen('users', '', columns) 
>>> SCanner 

14 


在 这 里 ， 你 申请 在 users 表 上 运行 一 个 全 表 扫 描 器 ， 只 需要 返回 
info 列 族 的 3 个 限定 人 符 。 当 前 返回 的 扫描 器 ID 是 14。 让 我 们 取出 第 一 
行 ， 看 看 读 取 了 什么 内 容 : 
>>> row = client.scannerGet (scanner) 
>>> row 


[TRowResult ( 
columns={'info:email': TCell (timestamp=1338530917411, 


value='samuel@clemens .org'), 
'ijnfo:name': TCell (timestamp=1338530917411, 
value='Mark Twain'), 
'info:user': TCell (timestamp=1338530917411, 
value='TheRealMT')}, 
row='TheRealMT')] 


scannerGet() 返 回 一 个 只 有 一 行 (TRowResult) 的 列表 。 该 行 有 一 
个 columns 字 段 ， 该 字段 是 从 列 限定 符 到 TCell 实 例 的 字典 。 

现在 你 知道 自己 在 做 什么 了 吧 ， 让 我 们 创建 一 个 类 来 封装 所 有 细 
节 。 把 这 个 辅助 类 命名 为 TwitBaseConn， 提 供 一 个 构造 函数 来 隐藏 所 
有 Thrift 连接 细节 。 还 有 ， 确 保 关 闭 (close()) 所 有 打开 (open0) 的 
东西 : 


class TwitBaseConn (object): 
def _init (self, host="localhost", port=9090): 
transport = TSocket .TSocket (host, port) 
self.transport = TTransport.TBufferedTransport (transport) 
self .Protocol = TBinaryProtocol .TBinaryProtocol (self .transport) 
self.client = Hbase.Client (self .protocol) 
self .transport .open () 


def close (self): 
self .transport.close() 


这 定义 了 一 个 连接 本 地 运行 的 Thrift 服 务 的 默认 构造 画 数 。 它 还 在 
网 络 层 上 增加 了 额外 一 层 ， 在 缓冲 区 里 封装 了 套 接 字 (socket) 。 现 在 
增加 一 个 方法 来 处 理 从 users 表 里 扫 摘 行 : 


def ‘scan users (SEE 

columns = ['info:user', 'info:name', 'info:email'] 
scanner = self.client.scannerOpen('users', '', columns) 
row = self.client.scannerGet (scanner) 
while row: 

yield row[0] 

row = self.client.scannerGet (scanner) 
self.client.scannerClose (scanner) 


这 部 分 代码 执行 读 取 行 和 关闭 扫描 器 等 任务 。 但 是 这 些 行 的 内 容 
处 理 需要 使 用 很 多 Thrift 库 的 细节 ， 所 以 让 我 们 增加 另 一 个 方法 来 取出 
你 要 的 数据 : 


def user from rowl(self, row): 
user = {} 
for col,cell in row.columns.items(): 
user[col[5:]] = cell.value 
return "<User: {user}, {name}, {email}>".format (**user) 


这 个 方法 循环 遍历 TCell ， 并 且 根 据 其 内 容 创 建 一 个 字符 串 。 让 我 
们 修改 scan_usersO 来 调用 这 个 方法 而 不 只 是 返回 原始 的 行 : 


def ‘scan Users (Belf): 
columns = ['info:user','info:name', 'info:email'] 
scanner = self.client.scannerOpen('users', '', columns) 


row = self.client.scannerGet (scanner) 
while row: 

yield self. user from row(row[0]) 

row = self.client.scannerGet (scanner) 
self.client.scannerClose (scanner) 


很 好 ! 剩 下 的 事情 就 是 把 它 打 包 进 main() 函 数 ， 然 后 启动 运行 。 最 
终 的 TwitBase.py 脚 本 如 代码 清单 6-3 所 示 。 
代码 清单 6-3 TwitBase.py: 使 用 Python 通过 Thrift 连 接 到 TwitBase 


#! /usr/bin/env Python 
import sys 


from thrift.transport import TSocket, TTransport 
from thrift.protocol import TBinaryProtocol 


from hbase import Hbase 
from hbase.ttypes import * 


usage = """TwitBase.py action 
help - print this messsage and exit 
list - list all installed users."™"™" 


class TwitBaseConn (object): 
def init (self; host="localhost", port=9090): 
transport = TSocket.TSocket (host, port) 
self.transport = TTransport.TBufferedTransport (transport) 
self .protocol = TBinaryProtocol.TBinaryProtocol (self .transport) 
self.client = Hbase.Client (self .protoco]l) 
self.transport .open () 


def close (self): 
self .transport .close() 


def user from rowl(self, row): 
user = {} 
for col,cell in row.columns.items(): 
user[col[5:]] = cell.value 
return "<User: {user}, {name}, {email}>".format (**user) 


def scan users (self): 

columns = ['info:user', 'info:name', 'info:email'] 
scanner = self.client.scannerOpen('users', '', columns) 
row = self.client.scannerGet (scanner) 
while row: 

yield self. user from row!(row[0]) 

row = self.client.scannerGet (scanner) 
self.client.scannerClose (scanner) 


def main(args=None): 
if args is None: 
args = sys.argv[1:] 


if len(args) == 0 or 'help' == args[0]: 
print usage 


raise SystemExit () 
twitBase = TwitBaseConn() 


nt GSO Se LL 
for user in twitBase.scan users(): 
print user 


twitBase.close() 
If name == '_ maln _': 
main() 
main() 函 数 超级 简单 。 它 的 任务 是 打开 连 返 ， 调 用 扫 换 ， 输 出 结 
果 ， 然 后 再 关闭 连接 。 使 用 Python， 不 需要 编译 。 但 你 的 确 需要 把 文件 
变 成 可 执行 文件 ， 只 是 一 行 命令 而 已 : 
$ chmod a+x TwitBase.py 
现在 你 可 以 试 试 : 


$ ./TwitBase.py list 

<User: TheRealMT, Mark Twain, samuel@clemens .org> 

<User: GrandpaD, Fyodor Dostoyevsky, fyodor@brothers.net> 

<User: SirDoyle, Sir Arthur Conan Doyle, art@TheQueensMen.co.uk> 
<User: HMS Surprise, Patrick O'Brian, aubrey@sea.com> 


干 得 漂亮 ! 你 已 经 准备 好 了 ， 可 以 开始 用 Python 来 创建 HBase 应 用 
了 。 接 下 来 ， 我们 将 研究 一 种 全 新 的 Java 语 言 客户 闻 


6.5 asynchbase: 另外 一 种 HBaseJava 客 户 端 


HBase 原生 Java 客户 端 是 完全 同步 的 。 当 你 的 应 用 通过 
HTableInterface 访问 HBase 时 ， 在 HBase 啊 应 请 求 时 每 个 动作 都 会 短 时 
间 阻 塞 你 的 应 用 线程 。 这 种 行为 常常 不 能 令 人 人 满意。 一些 应 用 不 想 在 
服务 器 上 等 待 响 应 ， 希 望 继续 执 行路 径 。 事 实 上 ， 在 服务 右上 的 同步 
等 生 对 于 许多 面 同 用 户 的 应 用 系统 是 很 不 利 的 。 


asynchbase ° 


asynchbase [16] 是 另 一 种 HBase 客 户 端 ， 也 是 用 Java 编 写 的 。 它 是 完 
全 异步 的 ， 这 意味 着 它 不 会 阻塞 调用 应 用 的 线程 。 它 优先 考虑 线程 安 
全 ， 并 且 它 的 客户 端 API 是 为 多 线程 应 用 的 用 途 而 设计 的 。 把 
asynchbase 和 原生 HBase 窜 户 端 比 较 来 看 ，asynchbase 的 发 起 人 致力 于 让 
客户 端 性 能 最 大 化 并 维护 一 组 性 能 基准 [1 。 

asynchbase 在 叫做 async 了 | 的 异步 库 上 创建 。 它 效仿 了 Python 
Twisted i] 库 的 异步 处 理 组 件 。async 允许 你 通过 针对 异步 运算 的 链 式 
连续 动作 (chaining successive action) 建立 并 行 数据 处 理 管道 。 对 这 些 
项 目 核 心 概 念 的 解释 超出 了 本 市 的 范围 。 我 们 提供 给 你 一 些 基 本 原 
理 ， 如 果 你 要 认真 使 用 asynchbase， 建 议 你 自己 研究 有 关 项 目 和 概念 。 
异步 编程 相对 比较 少见 ， 可 能 不 大 直观 易 懂 。 当 设计 一 种 需要 在 后 并 
处 理 海量 数据 的 面向 用 户 的 应 用 系统 时 ， 它 是 一 种 不 同 的 思考 方式 ， 
但 也 是 一 种 重要 的 编程 方式 。 

asynchbase 的 主要 有 名 的 部 署 是 OpenTSDB ， 后 面 草 节 会 详细 介 
绍 这 个 应 用 。asynchbase 和 OpenTSDB 都 是 由 同一 个 用 户 社区 编写 和 
维护 的 。 这 个 社区 和 广大 的 HBase 社 区 比较 起 来 小 得 多 。 和 任何 开源 项 
目 一 样 ， 当 采用 一 个 还 没有 达到 临界 用 户 数量 的 项 目 时 建议 谨慎 一 
些 。 即 便 如 此 ，asynchbase 的 人 气 正 在 上 升 。 

考虑 选择 asynchbase 的 另 一 个 重要 的 理由 是 多 版 本 文 持 。HBase 发 
行 版 采用 “大 版 本 .小 版 本 .补丁 "形式 的 版 本 号 来 标记 。 本 书 使 用 HBase 
版 本 0.92.x， 或 者 说 是 大 版 本 0， 小 版 本 92， 和 一 个 未 特别 指定 的 补 
本 。 当 使 用 原生 HBase 客 户 端 时 ， 客 户 端的 大 版 本 和 小 版 本 .i] 必须 和 
集群 的 大 版 本 和 小 版 本 相 匹 配 。 你 可 以 使 用 一 个 0.90.3 的 客户 端 访 问 任 
何 0.90.x 的 集群 ， 但 是 它 不 能 和 一 个 0.92.x 的 集群 兼容 。 另 一 方面 ， 
asynchbase 客 户 端 文 持 自 从 0.20.4 (在 2010 年 年 中 发 布 ) 以 来 的 所 有 


HBase 版 本 。 这 意味 着 你 的 客户 端 代码 和 集群 部 署 完 全 解 灰 。 当 考虑 到 
客户 端 代 码 不 能 像 集群 一 样 频 党 升级 时 ， 这 是 一 个 巨大 的 好 处 。 

本 例 中 将 使 用 asynchbase 客 户 端 创建 另 一 种 访问 TwitBase 的 users 表 
的 客户 端 。 该 项 目的 最 终 代 人 码 可 以 在 GitHub 上 得 到 ， 参 见 


https://github.com/hbaseinaction/twitbase-async ° 


6.5.1 创建 一 个 asynchbase 项 目 


开始 你 需要 创建 一 个 新 的 Java 工 程 。 最 简单 的 创建 项 目的 方法 是 使 
用 Maven 原 型 。Maven 原 型 是 预先 建立 好 的 、 提 供 基本 Maven 项 目 素 材 
的 项 目 模板 。 对 于 这 个 项 目 我 们 使 用 最 简单 的 quickstart 原 型 。 你 可 以 
跟着 来 创建 这 个 项 目 。 
可 以 使 用 archetype:generate 命 令 创 建 项 目 结构 : 
$ mvn archetype:generate \ 
-DarchetypeGrouplId=org.apache.maven.archetypes \ 
-DarchetypeArtifactIid=maven-archetype-quickstart \ 
-DgroupId=HBaseIA \ 
-DartifactIid=twitbase-async \ 
-Dversion=1.0.0 


在 Maven 下 载 了 所 有 缺失 的 依赖 项 后 ， 它 会 提示 你 确认 参数 。 点 击 
回 和 车， 让 它 继 续 。 这 会 在 当前 目录 下 创建 一 个 叫做 twitbase-async 的 目 
录 。 该 目录 下 有 一 个 基本 的 “hello world” 命 令 行 应 用 。 

下 面 要 做 的 事情 是 把 asynchbase 深 加 到 该 项 目 里 作为 一 个 依赖 项 。 
在 项 目 顶 层 目 录 里 有 一 个 叫做 pom.xml 的 文件 在 管理 这 个 Maven 项 
目 。 编 辑 生成 的 pom.xml， 给 <dependencies> 属 性 块 增加 几 个 新 的 


<dependency> 条 目 : 


<dependencies> 

<dependency> 
<groupId>org.hbase</groupId> 
<artifactId>asynchbase</artifactId> 
<version>1.3.1</version> 

</dependency> 

<dependency> 
<groupId>org.slf4j</groupId> 
<artifactId>slf4j-api</artifactId> 
<version>1.6.6</version> 

</dependency> 

<dependency> 
<groupId>org.slf4j</groupId> 
<artifactIid>slf4j-simple</artifactId> 
<version>1.6.6</vVversion> 

</dependency> 


</dependencies> 

让 我 们 也 把 maven-assembly-plugin 添加 到 pom.xml 文 件 。 这 会 让 你 
可 以 创建 一 个 包含 该 项 目 所 有 依赖 项 的 JAR 包 ， 简 化 AsyncTwitBase 访 
用 启动 。 添 加 一 个 新 的 <build> 属 性 块 到 <project>: 


“EEC sas 
burllds 
<plugins> 
<plugin> 
<artifactId>maven-assembly-plugin</artifactId> 
<version>2.3</version> 
<executions> 
<execution> 
<id>jar-with-dependencies</id> 
<phase>package</phase> 
<goals> 
<goal>single</goal> 
</goals> 
<configuration> 
<descriptorRefs> 


<descriptorRef >jar-with-dependencies</descriptorRef> 


</descriptorRefs> 
<appendAssemblyId>false</appendAssemblyId> 


</configuration> 
</execution> 
</executions> 
</plugin> 
</plugins> 
</build> 
</project> 


现在 该 确认 一 切 是 否 正 常 工作 了 。 继 续 往 前 推进 ， 用 下 面 的 命令 
编译 和 运行 应 用 。 你 应 该 看 到 下 面 的 输出 信息 : 


$ mvn package 

[INFO] Scanning for projects... 

[INFO] 

[INFO] -------- 
[INFO] Building twitbase-async 1.0.0 

[INFO] ------- 


[INFO] -------------- 
[INFO] BUILD SUCCESS 

[INFO] ------- 
[NERO Total timer 12,.191s 


$ java -cp target/twitbase-async-1.0.0.jar HBaseIA.App 
Hello World! 


现在 你 的 项 目 准备 好 了 ， 可 以 开始 使 用 asynchbase 了 。 
6.5.2 > TwitBase 日 jj 


让 我 们 创建 一 个 为 系统 里 所 有 用 户 生 成 随机 密码 的 应 用 。 如 果 你 
的 TwitBase 部 署 经 历 过 一 次 安全 入 侵 ， 你 就 会 用 到 这 种 应 用 。 你 打算 让 
应 用 扫描 users 表 里 的 所 有 用 户 ， 获 取 用 户 密 码 ， 并 且 基 于 旧 和 密码 生成 
一 个 新 密码 。 你 也 打算 让 应 用 通知 受到 安全 入 侵 的 用 户 ， 通 知 他 们 如 
何 重 新 取 回 他 们 的 账户 。 你 可 以 使 用 async 的 Deferred 对 象 和 Callback 对 
象 通过 链 式 连续 操作 完成 上 述 工作 。Callback 链 的 工作 流 如 图 6-3 所 
示 。 

在 一 个 Deferred 实 例 上 加 上 Callback 实 例 把 连续 的 步骤 链 式 连接 在 
一 起 。 可 以 使 用 Deferred 类 提供 的 addCallback 方法 组 来 做 到 这 一 点 。 
也 可 以 增加 Callback 来 处 理 错误 情况 ， 如 同 你 在 步骤 4b 中 看 到 的 。 
Errback 是 和 用 在 Twisted Python 库 里 的 专 有 名 词 一 致 的 术语 ，async 负 
贡 调 用 这 些 Errback。 调 用 这 个 关联 的 Deferred 实 例 上 的 join0) 方 法 可 以 
得 到 Callback 链 的 最 终结 果 。 如 果 该 Deferred 实例 完成 了 处 理 任务 ， 调 
用 join(long timeout) 方 法 会 立即 返回 一 个 结果 。 如 果 该 Deferred 实 例 的 
Callback 链 仍 在 处 理 过 程 中 ， 当 前 线程 会 阻塞 ， 直 到 该 Deferred 实例 完 
成 任务 或 者 超时 (timeout) 失效 《以 毫秒 为 单位 ) 
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1 扫描 users 表 的 全 部 行 。 每 个 用 户 生 成 一 个 KeyValue。 

2 基于 旧 密 码 计 算 生成 一 个 新 密码 ， 并 给 HBase 发 送 一 个 Put。 
3 解释 Put 响 应 信息 ， 要 么 成 功 要 么 失败 。 

4 根据 响应 信息 的 结果 格式 化 一 条 消息 


5 发 送 通 知 消息 ， 然 后 返回 true。 


图 6-3 使 用 a en 。 步 得 到 上 一 步 的 输出 
言 息 ， 处 理 该 信息 ， 然 后 发 送 给 下 一 步 ， 直 到 生成 最 终结 
带 着 新 收获 的 关于 async 数 据 处 理 管道 0 管道 的 大 人 致 思 
路 ， 让 我 们 开始 创建 这 种 管道 。 
1. 异步 的 HBase 客 户 端 
asynchbase 的 主 入 口 是 HBaseClient 类 。 它 负责 管理 与 HBase 集 群 的 
交互 。 它 的 责任 类 似 于 原生 客户 端的 HTablePool 和 HTableInterface 的 联 
合体 。 
你 的 应 用 只 需要 一 个 HBaseClient 实 例 。 与 HIableInterface 很 像 ， 你 


需要 在 使 用 结束 后 确保 关闭 它 。 如 果 使 用 原生 客户 端 ， 你 会 这 么 做 : 
HTablePool pool = new HTablePool(...); 
HTableInterface myTable = pool.getTable ("myTable")., 
// application code 

myTable.close(),; 

pool.closeTablePool ("myTable").,， 


在 asynchbase 里 ， 你 应 该 这 样 做 : 


final HBaseClient client = new HBaseClient ('"1LocalLlhost'" ) ; 
// application code 
client.shutdown() .joinUninterruptibly(); 


这 段 代码 创建 了 一 个 访问 本 机 (localhost) 管理 的 HBase 的 
HBaseClient 实 例 。 然 后 天 闭 这 个 实例 ， 并 且 阻 窟 当前 线程 ， 直 到 
shutdown() 方 法 完成 。 在 这 里 必须 等 待 shutdown0 完 成 ， 以 确保 所 有 等 
待 的 RPC 请 求 被 完成 并 且 该 线程 池 在 应 用 退出 前 被 正确 处 理 了 。 
shutdown() 返 回 Deferred 类 的 一 个 实例 ， 这 个 Deferred 实 例 代表 了 在 为 一 
个 线程 上 执行 的 操作 。 通 过 调用 该 Deferred 实例 上 的 join 方法 组 来 实 
现 等 待 。 因 为 你 要 确保 在 结束 时 客户 端 资源 被 清理 干净 ， 所 以 在 这 里 
调用 joinUninterruptibly0) 方 法 。 注 意 ， 如 果 在 调用 joinUninterruptiblyO 实 
现 的 等 竺 过程 中 你 的 线程 被 中 断 ， 它 仍然 会 被 标记 为 被 中 断 。 

你 将 使 用 这 个 客户 端 实例 来 创建 一 个 扫描 器 (Scanner) 。 这 个 
asynchbase Scanner 的 使 用 方法 类 似 于 你 已 经 熟悉 的 ResultsScanner。 如 
下 所 示 ， 在 users 表 上 创建 一 个 Scanner， 并 且 把 它 的 输出 结果 限定 在 


info:password 列 : 
final Scanner scanner = ClLient .newScannezr ("users'")., 


scanner.setFamily ("info")., 
scanner.setQualifier("password"),， 


使 用 这 个 Scanner 实 例 ， 通 过 调用 nextRows(0) 方 法 遍历 表 里 的 行 。 
瓯 像 这 个 库 里 其 他 的 异步 操作 一 样 ，nextRows0 返 回 一 个 Deferred 实 
例 。 和 原生 扫描 器 类 似 ， 你 可 以 给 nextRows0 传 递 一 个 数字 来 要 求 每 
页 返回 指定 数量 的 结果 。 为 了 强调 这 个 应 用 异步 的 特点 ， 让 我 们 把 扫 
描 结 采 限 定 为 每 页 一 行 。 

在 真正 的 应 用 系统 里 不 要 这 样 做 ! 

把 扫描 露 限定 为 每 次 请 求 输出 一 行 会 大 大 降低 应 用 的 性 能 ， 我 们 
这 样 做 的 唯一 原因 是 把 触发 故障 情况 的 机 会 放 到 最 大 。 本 市 后 面 你 会 
明白 我 们 的 意思 。 


每 个 返回 行 包含 它 的 单元 列表 。 这 些 单元 用 KeyValue 类 的 实例 来 
代表 。 为 了 遍历 返回 行 的 页 面 ， 你 需要 循环 裔 历 一 组 KeyValue 实 例 列 
表 ， 如 下 所 示 : 


ArrayList<ArrayList<KeyValue>> rows = null; 
while ((rows = scanner.nextRows(1) .joinUninterruptibly()) != null) { 
for (ArrayList<KeyValue> row : rows) { 
J 二 
} 
} 


和 调用 shutdown() 方 法 一 样 ， 这 段 代 码 阻塞 了 当前 线程 ， 直 到 得 到 
所 有 扫描 结果 。 倘 大 你 的 兴趣 在 于 保持 行 的 次 序 ， 那 么 异步 扫描 这 些 
行 没有 多 大 意义 。 通 过 联结 每 个 Deferred 实例 ， 你 把 扫描 结果 提取 到 
rows 变量 里 。 解 析 这 些 扫 搬 结 末 的 做 法 类 似 于 在 原生 客户 端 里 使 用 
KeyValue 对 象 的 做 法 。 这 是 状态 图 的 第 1 步 ， 如 图 6-4 所 示 。 


KeyValue 
rowkey:TheRealMT 
info:password:abcl123 


图 6-4 第 1 步 是 扫描 users 表 里 的 所 有 行 。 每 个 用 户 生成 一 个 


KeyValue 实 例 
代码 如 下 所 示 : 
KeyValue kv = row.get (0); Se 
byte [] expected = kv.value(); 4 | 密码 
String userId = new String(kv.key()); 
| 获取 用 户 ID 
PutRequest put = new PutRequest ( 
"users".getBytes(), kv.key(), kv.family(), 基于 旧 密 码 存 


kv.qualifier()，mkNewPassword(expected) ) ; 储 新 密码 


该 扫 摘 需 被 限定 为 只 返回 info:password 列 ， 所 以 你 知道 每 个 结 
行 只 有 一 个 KeyValue 实 例 。 你 得 到 这 个 KeyValue 实 例 ， 取 出 和 你 有 关 的 
数据 。 对 于 这 个 例子 ， 旧 密码 用 来 做 新 密码 的 输入 参数 ， 所 以 把 旧 密 
码 传递 给 mkNewPassword() 方 法 。 然 后 创建 一 个 新 的 Put 实 例 ， 在 这 里 
asynchbase 调 用 了 一 个 PutRequest 实 例 ， 用 来 更 新 用 户 的 密码 。 最 后 一 
步 是 构建 一 个 Callback 链 ， 并 且 把 它 附 加 到 PutRequest 调 用 上 。 

到 现在 为 止 你 已 经 实现 了 图 6-3 里 的 第 1 步 的 全 部 和 第 2 步 的 大 部 
分 。 在 你 开始 链接 Callback 之 前 ， 让 我 们 编写 几 个 方法 来 帮助 你 观察 运 
行 中 的 异步 应 用 。 

2. 开发 一 个 异步 应 用 

异步 应 用 的 开发 和 调试 是 很 复杂 的 ， 所 以 你 要 为 成 功 运行 做 点 儿 
准备 。 第 一 件 事情 是 输出 带 有 关联 线程 的 调试 语句 。 为 此 ， 你 将 使 用 
日 志 库 SLF4J， 这 是 被 asynchbase 使 用 的 同一 个 日 志 库 。 如 下 所 示 ， 实 
现 你 需要 的 日 志 : 
static final Logger LOG = LoggerFactory.getLogger (AsyncUsersTool.class); 

为 了 有 助 于 研究 这 段 代码 的 异步 特点 ， 有 必要 介绍 一 下 系统 的 模 
拟 延 迟 。latency(0) 方 法 会 强迫 线程 睡眠 来 不 时 地 推迟 处 理 任务 : 


static void latency() throws Exception { 
if (System.currentTimeMillis() % 2 == 0) { 
LOG.info("a thread is napping..."); 


Thread.sleep(1000),， 


} 


} 
你 还 可 以 偶尔 调用 entropy0 方 法 引入 临时 故障 来 完成 同样 的 模拟 延 


达 : 


static boolean entropy (Boolean val) { 
if (System.currentTimeMillis() % 3 == 0) { 
LOG.info("entropy strikes!"),; 
return false,; 


} 


return (val == null) ? Boolean .TRUE : val: 


你 将 在 每 个 Callback 的 开始 和 结束 时 调用 latency() 来 延缓 一 下 处 
理 。 在 第 2 步 产 生 的 结果 上 调用 entropy()， 以 便 你 可 以 练习 第 4b 步 提供 
的 错误 处 理 逻 辑 。 现 在 该 为 剩 下 的 步骤 实现 Callback 了 。 

3. 使 用 CALLBACK 的 链 式 连续 动作 

数据 处 理 管道 里 的 第 3 步 是 解释 送 往 HBase 的 PutRequest 生 成 的 啊 
应 。 这 一 步 如 图 6-5 所 示 。 
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图 6-5 第 3 步 是 解释 Put 吧 应 ， 要 么 成 功 要 人 么 失败 。 

你 可 以 通过 实现 async 的 Callback 接口 做 到 这 一 点 。 该 实现 从 
HBase 响应 里 接收 到 一 个 布尔 型 值 (Boolean) ， 然 后 生成 一 个 
UpdateResult 实例 ， 这 是 一 个 专门 针对 你 的 应 用 的 对 象 。UpdateResult 
类 很 向 单 ， 只 是 一 个 数据 包 ，; 


static final class UpdateResult 1 
public String userId; 
public boolean success; 

} 

当 PutRequest 失败 或 者 entropy0O 出 现时 ， 第 3 步 还 会 抛 出 一 个 
UpdateFailedException 异常 。async 负责 寻找 异常 (Exception) ， 要 人 么 
和 是 Deferred 和 Callback 实 例 抛 出 来 的 ， 要 么 是 Deferred 和 Callback 实 例 返 
回 的 ， 来 触发 错误 处 理 callback 链 。 因 为 你 自己 实现 异常 ， 所 以 你 可 以 
在 异种 里 打包 一 些 内 容 。 看 起 来 像 下 面 这 样 : 


static final class UpdateFailedException extends Exception { 
public UpdateResult result; 


public UpdateFailedException(UpdateResult r) { 
this.result = r; 


} 
} 


现在 你 可 以 实现 Callback 来 处 理 第 3 步 。 这 个 类 的 职责 是 把 异步 
啊 应 转换 为 应 用 专用 的 数据 类 型 。 你 可 以 称 它 为 InterpretResponse。 它 
有 一 个 构造 函数 来 传递 用 户 ID; 这 样 在 收 到 啊 应 时 你 可 以 知道 和 目 己 正 
在 处 理 哪 个 用 户 。 这 上段 代码 的 关键 部 分 在 UpdateResult call(Boolean 
response) 方 法 里 。 该 方法 在 启动 和 停止 时 调用 latency()。 它 也 从 HBase 
接收 到 响应 (response) ， 然 后 传 入 entropy0。 这 样 做 纯粹 是 为 了 好 理 
解 。 真 正 的 工作 在 于 接收 响应 (response) ， 然 后 要 么 构造 一 个 
UpdateResult 实 例 要 么 抛 一 个 UpdateFailedException 异 常 。 无 论 哪 种 情 
况 ， 都 没有 太 多 可 做 的 。 在 真正 的 工作 代码 里 ， 你 可 以 假想 这 里 会 执 
行 任意 复杂 的 操作 : 


static final class InterpretResponse 
implements Callback<UpdateResult, Boolean> { 


private String userId; 


InterpretResponse (String userId) { 
this.userId = userId; 


} 


public UpdateResult call (Boolean response) throws Exception { 
latency(); 


UpdateResult r = new UpdateResult () ; 
r.userId = this.userId; 
r.success = entropy (response),; 
if (!r.success) 
throw new UpdateFailedException(r),; 


latency () ; 
return rr; 


InterpretResponse 是 本 例 中 最 复杂 的 Callback， 所 以 如 采 到 现在 你 仍 
然 跟 得 上 ， 束 应 该 不 会 有 问题 了 。 这 个 Callback 要 么 成 功 执行 转换 ， 
要 么 检测 到 错误 并 抛 异 常 。 无 论 哪 种 情况 ， 下 一 步调 用 哪个 Callback 的 
决定 留 给 了 async。 当 考虑 这 些 数据 处 理 管道 时 这 是 一 个 很 重要 的 概 
念 。 链 中 每 一 步 彼此 之 间 一 无 所 知 。 请 注意 ，InterpretResponse 的 类 型 
签名 实现 了 Callback<UpdateResult Boolean>。 这 些 泛 型 符合 call0 方 法 
的 签名 。 连 接 第 3 步 和 第 4 步 的 唯一 的 东西 是 它们 之 间 以 类 型 签名 形式 
的 约定 。 

至 于 下 一 步 ， 你 百 先 实现 成 功 转换 的 情况 ， 即 状态 图 的 第 4a 步 。 
为 上 下 文 需要 ， 第 4a 步 和 第 4b 步 如 图 6-6 所 示 。 
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图 6-6 第 4a 步 和 第 4b 步 根据 响应 的 结果 生成 一 条 需要 发 送 的 消息 

这 一 步 得 到 第 3 步 生成 的 UpdateResult， 然 后 把 它 转换 成 一 个 字符 

串 (String) 消息 ， 也 许 通过 电子 邮件 发 送 给 用 户 ， 也 许 在 什么 地 方 更 
新 一 下 日 志 。 因 此 ， 由 Callback<String,UpdateResult> 实 现 第 4a 步 。 在 


ResultToMessage 上 调用 它 : 
static final class ResultToMessage 
implements Callback<String, UpdateResult> { 


UpdateFailed 


String 消 息 
Exception 


public String call (UpdateResult r) throws Exception { 
latency () ; 
String fmt = "password change for user %s successful.",; 
latency () ; 
return String.format (fmt, r.userId),; 


} 
} 


你 在 call0 方 法 开始 和 结束 时 又 调用 了 latency0; 否则 ， 这 里 什么 有 
趣 的 东西 都 没有 了 “。 这 个 消息 的 构成 很 简单 ， 看 起 来 对 用 户 也 很 合 
适 。 也 没有 什么 异常 可 以 抛 出 ， 所 以 你 不 用 为 这 一 步 考 虑 Errback 链 。 


第 4b 步 定 义 的 Errback 和 第 4a 步 中 的 Callback 类 似 。 它 也 被 实现 
为 一 个 Callback， 这 次 使 用 String 和 UpdateFailedException 作为 参数 。 
处 理 方 式 几乎 相同 ， 除 了 它 是 从 Exception 接 收 用 户 ID 而 不 是 从 
UpdateResult: 


static final class FailureToMessage 
implements Callback<String, UpdateFailedException> { 


public String call (UpdateFailedException e) throws Exception { 
latency () ; 
String fmt = "%s, your password is unchanged!",; 
latency () ; 
return String.format (fmt, e.result .userId); 


} 
} 


ResultToMessage 和 FailureToMessage 都 生成 了 一 个 字符 串 作 为 输 
出 。 这 意味 着 它们 可 以 在 最 后 第 5 步 被 链接 到 同一 个 Callback 实 例 上 。 
第 5 步 由 SendMessage 处 理 ， 是 Callback<Object, String> 的 一 个 实现 ， 如 
图 6-7 所 示 。 


String 消 息 


布尔 型 值 
通知 状态 


String 消 息 
图 6-7 第 5 步 发 送 通知 消息 
SendMessage 应 该 要 么 成 功 (此 时 返回 true) 要 么 抛 出 一 个 异常 
SendMessageFailedException。 关 于 失败 异常 没有 什么 特殊 的 ， 本 例 中 
只 是 为 了 明确 表明 它 是 应 用 特有 的 。 SendMessage 看 起 来 像 下 面 这 样 : 


static final class SendMessage 
implements Callback<Boolean, String> { 


public Boolean calll(Sstring s) throws Exception { 
latency(); 
if (entropy (null)) 
throw new SendMessageFailedException(); 
LOG .Infto(Ss) ; 
latency () ; 
return Boolean.TRUE; 


再 一 次 ， 我 们 使 用 latency0 和 entropy0) 来 让 事情 变 得 更 有 趣 。 这 段 
代码 要 么 发 送 消 息 ， 要 么 抛 出 异常 。 本 例 中 ， 没 有 使 用 Errback 链 接 到 
数据 处 理 管道 ， 所 以 这 些 错误 需要 在 客户 端 代 码 里 处 理 。 完 成 数据 处 
理 管道 实现 后 ， 让 我 们 重新 回 到 使 用 扫描 器 的 代码 。 

4. 接 通 数据 管道 

前 面 在 最 后 一 次 看 到 用 户 应 用 时 ， 它 正在 从 扫描 器 里 读 取 行 ， 并 


且 正 在 创建 PutRequest 对 象 来 初始 化 数据 处 理 管道 ， 本 质 上 就 是 状态 图 
里 的 第 1 步 。 最 后 一 件 要 处 理 的 事情 是 把 这 些 Put 送 到 HBase ， 并 且 
把 响应 传递 给 Callback 链 ， 如 图 6-8 所 示 。 


© 


设置 


新 密码 


KeyValue 布尔 型 值 
rowkey:TheRealMT Put 响 应 


info:password:abc123 


图 6-8 第 2 步 根据 旧 密 码 生 成 一 个 新 密码 ， 然 后 发 送 一 个 Put 给 
HBase 

这 是 你 最 后 用 到 Deferred 实 例 的 地 方 ! 对 于 这 个 例子 而 言 ， 你 可 以 
使 用 Deferred<Boolean>HBaseClient.compareAndSet(PutRequest put, 
byte[] expected) 而 不 是 put0) 来 简化 Callback 链 的 解释 。 这 个 方法 是 put0) 
的 原子 版 本 。compareAndSet() 返 回 一 个 Deferred 实 例 ， 在 被 join() 联 结 
后 ， 该 实例 会 返回 一 个 布尔 型 值 (Boolean) 。 这 是 链接 Callback 的 入 
口 。 这 个 链接 如 下 : 


sd 
Deferred<Boolean> d = client.compareAndSet (put, expected) < 一 | 附加 上 第 3 步 
.addCallback (new InterpretResponse (userId)) + 
.addCallbacks (new ResultToMessage(), new FailureToMessage()) < 附加 上 第 4a 
.addCallback SendM : i 
A EOI SEE ”| 附加 上 第 5 步 步 和 第 4b 步 


每 个 addCallback() 的 连续 调用 返回 相同 的 Deferred 实例 ， 但 是 它 的 
类 型 会 被 更 新 ， 以 符合 附加 的 Callback 的 返回 类 型 。 所 以 ， 执 行 第 2 
步 会 返回 一 个 Deferred<Boolean>， 在 第 3 步 链接 Callback 后 它 变 为 
Deferred<UpdateResult>。 第 4a 步 和 第 4b 步 的 链接 使 用 addCallbacksO 完 
成 ， 注 意 带 有 一 个 s。 这 一 步 返 回 一 个 Deferred<String>， 这 是 由 成 功 情 
况 下 的 返回 类 型 所 赋予 的 类 型 。async 里 的 错误 情况 总 是 被 归 类 为 一 个 
异常 ， 所 以 这 种 情况 不 需要 在 Deferred 里 定义 。 第 5 步 把 它 转换 成 一 
个 Deferred<Boolean>， 这 是 最 终 被 应 用 使 用 的 类 型 。 

扫描 结果 里 的 每 行 都 有 一 个 对 应 的 Deferred<Boolean>， 你 可 能 想 
看 到 它 的 执行 是 否 被 完成 。 看 到 每 行 完 整 Callback 链 的 结果 的 唯一 办 
法 是 收集 最 终 的 Deferred<Boolean> 实 例 并 join0 联 结 它 们 。 这 和 前 面 的 
代码 一 样 ， 只 是 多 了 收集 Deferred<Boolean> 实 例 的 记 账 部 分 : 


ArrayList<Deferred<Boolean>> workers 
= new ArrayList<Deferred<Boolean>>(); 


while ((rows = scanner.nextRows (1) .joinUninterruptibly()) != null) { 
for (ArrayList<KeyValue> row : rows) { 
WA ia 


Deferred<Boolean> Q = ...; 
workers.add(d); 


} 
} 


注意 ，workers 列表 保持 了 行 被 生成 时 的 次 序 。 因 为 在 使 用 定制 的 
UpdateResult 和 和 UpdateFailedException 类 时 你 已 经 小 心地 了 解 了 必要 的 内 
容 ， 对 于 这 个 例子 这 并 不 是 特别 有 用 。 你 可 以 轻易 地 在 这 个 层次 积累 
状态 ， 例 如， 创建 一 个 从 用 户 ID 到 Deferred<Boolean> 结 果 的 映射 

(Map) 。 因 为 你 在 本 例 中 对 于 特定 的 结果 没有 兴趣 ， 所 以 你 把 所 有 
Deferred 实例 联结 为 一 个 组 。 最 后 一 步 是 调用 join0 和 累积 处 理 结 末 。 


Deferred<ArrayList<Object>> Q = Deferred.group (workers)., 
try { 
dG) 3 
} catch (DeferredGroupException e) { 
LOG.infol(le.getCause() .getMessage()); 


} 


你 的 机 器 在 后 台 同 时 执行 它们 。 当 你 调用 join0 时 ，async 返 回 给 你 
每 个 put 操 作 的 处 理 链 的 结果 。 如 果 数 据 链 的 任何 组 件 在 处 理 过 程 中 抛 
出 或 者 返回 异常 (Exception) 实例 ， 那 么 它 抛 出 异常 让 你 在 这 里 捕 
获 。 这 里 的 Deferred 封 狼 了 所 有 单个 Deferred 实 例 ， 它 把 这 些 异 常 封闭 
在 DeferredGroupException 里 。 可 以 调用 getCause() 打 开 它 ， 查 看 底层 的 
背 误 。 

为 了 圆满 完成 所 有 事情 ， 让 我 们 给 命令 行 应 用 起 个 有 意义 的 名 
字 。 我 们 把 文件 srcmain/java/HBaseIA/App.java 重 新 命名 为 像 
AsyncUsersTool.java 这 样 的 名 字 ， 并 把 它 转移 到 一 个 合适 的 软件 包 文 件 
路 径 ， 然 后 更 新 类 名 字 和 软件 包 。 最 终 的 AsyncUsersTool 如 代码 清单 6- 
4 所 示 。 


代码 清单 6-4 完整 的 TwitBase 的 asynchbase 客户 端 : 


AsyncUsersTool 


package HBaselIA.TwitBase; 
// 


static final byte[] TABLE NAME = 
static final byte[] INFO FAM = 
static final byte[] PASSWORD COL = 
static final byte[] EMAIL COL = 


public static final String usage = 
"usertool action ...\n" + 
" help - print this message and 


| 省 略 导入 部 分 


"users".getBytes () ; 
"info" .getBytes () ; 
"password'" .getBytes () ; 
"email".getBytes () ; 


exit.\n" + 


" update - update passwords for all installed users.\n"; 
static final Object lock = new Object (); 


static void println(string msg) { 


synchronized (lock) { 把 写 操作 同步 到 线 
System.out .println (msg); 程 的 标准 输出 
} 
} 基于 旧 密 码 
static byte[] mkNewPassword(byte[] seed) { 生成 新 密码 
// 
} 
static void latency() throws Exception { 给 示例 应 用 
if (System.currentTimeMillis() % 2 == 0) { 增加 事件 
println("a thread is napping..."); 
Thread.sleep(1000);，; 
} 
} 
static boolean entropy (Boolean val) { 给 示例 应 用 
if (System.currentTimeMillis() % 3 == 0) { 增加 事件 
println("entropy strikes!"); 
return false; 
} 
return (val == null) ? Boolean.TRUE : vwal; 
} 
static final class UpdateResult { < 一 
public String userId; 
public boolean success; 
} 
static final class UpdateFailedException extends Exception { |] 
private static final long serialVersionUID = 1L; 
public UpdateResult result; 
: , 、 应 用 特有 的 
public UpdateFailedException(UpdateResult r) { 容器 和 异常 
this.result = 工 ; 合 开 吊 
} 
} 
static final class SendMessageFailedException extends Exception { <— 


private static final long serialVersionUID = 1L; 


public SendMessageFailedException() { 
super("Failed to send message!"); 
} 


} 


把 Deferred<Boolean> 


static final class InterpretResponse 转换 为 Deferred 
implements Callback<UpdateResult, Boolean> { <UpdateResult> 


private String userId; 


InterpretResponse (String userId) { 
this.userId = userId; 
} 


public UpdateResult call (Boolean response) throws Exception { 


latency(); 
UpdateResult r = new UpdateResult ()， 
r.userId = this.userId; 
r.success = entropy (response) ; 在 例外 情况 时 抛 出 异常 ; 
if (!r.success) 让 async 处 理 剩 下 的 事情 
throw new UpdateFailedException(r); 
latency (); 
Peburn Tr 
} 
@Override 


public String tostring() { 
return String.format ("InterpretResponse<%s>", userId); 
} 


} 把 Deferred 
static final class ResultToMessage <UpdateResult> 转 换 为 
implements Callback<String, UpdateResult> { Deferred<String> 
public String call (UpdateResult r) throws Exception { 
latency () ; 
String fmt = "password change for user %s successful."; 
latency(); 


return String.format (fmt, r.userId); 


} 


@Override 
public String tostring() { 
return "ResultToMessage"; 


} 把 Deferred<UpdateFailedException> 转 换 为 


} Deferred<String> 
static final class FailureToMessage 
implements Callback<String, UpdateFailedException> { 


public String call (UpdateFailedException e) throws Exception { 


latency () ; 
String fmt = "%s, your password is unchanged!"; 


latency (); 
return String.format (fmt, e.result.userId); 


} 


@Override 
public String tostring() { 
return "FailureToMessage"; 


} 
} 


static final class SendMessage 把 Deferred<String> 
implements Callback<Boolean, String> { 转换 为 Deferred 
<Boolean> 


public Boolean call(String s) throws Exception { 


latency (); 
if (entropy (null)) 


throw new SendMessageFailedException(); 
println(s)'s 
latency (); 
return Boolean.TRUE; 


} 


@Override 
public String tostring() { 
return "SendMessage',; 


} 
} 


static List<Deferred<Boolean>> doList (HBaseClient client) 
throws Throwable { 
final Scanner scanner = client .newScanner (TABLE NAME); 


scanner.setFamily (INFO FAM); 
scanner.setQualifier (PASSWORD COL); 创建 扫描 器 ， 限 定 为 


ArrayList<ArrayList<KeyValue>> rows = null; info:password 列 


ArrayList<Deferred<Boolean>> workers 
= new ArrayList<Deferred<Boolean>>();，; 


while ((rows = scanner.nextRows(1) .joinUninterruptibly()) != null) { 


println("received a page of users."); 
for (ArrayList<KeyValue> row : rows) { 解析 单个 行 ; 
KeyValue kv = row.get (0); 
bytel[] expected = kv.value(); 生成 PutRequest 
String userId = new String(kv.key()); 
PutRequest put = new PutRequest( 
TABLE NAME, kv.key(), kv.family(), 
kv.qualifier(), mkNewPassword (expected) ) ; 


Deferred<Boolean> d = client.compareAndSet (put, expected) 
.addCallback (new InterpretResponse (userId)) 接 通 
.addCallbacks (new ResultToMessage(), new FailureToMessage () ) Callback 
.addCallback (new SendMessage () ) ; 链 

workers.add(d); 收集 生成 的 

} Deferred 实例 


} 


return workers; 


public static void main(String[] args) throws Throwable { 
if (args.length == || "help".equals(args[0])) { 
System.out .println (usage); 
System.exit (0); 


} 


final HBaseClient client = new HBaseClient ("localhost"),; 


if ("update".equals(args[0])) { 
for (Deferred<Boolean> d: doList(client)) { 、 
Ery { 一 
d.join(); workers; 处 理 结 果 
} catch (SendMessageFailedException e) { 
println(e.getMessage ()); 
} 
} 


} 释放 连接 
client.shutdown() .joinUninterruptibly(); 资源 
} 
} 


最 后 一 步 古 配置 日 志 记 录 。 你 需要 如 此 处 理 以 便 能 够 查看 日 志 信 
轧 ， 尤 其 是 能 够 查看 哪 一 个 线程 在 执行 什么 工作 。 新 建 一 个 文件 


src/main/resources/simplelogger. properties， 包 含 以 下 内 容 : 
org.slf4]j .simplelogger.showdatetime = false 
org.slf4j .simplelogger.showShortLogname = true 


org.slf4]j] .simplelogger.1log.org.hbase.async = warn 
org.slf4] .simplelogger.1og.org.apache .zookeeper = Wan 
org.slf4j .simplelogger.1og.org.apache.zookeeper.client = error 


大 功 告 成 ! 让 我 们 试 运 行 一 下 。 
6.5.3 i 


a 和 至 运行， 并 有 日 users 表 的 数据 已 经 到 位 。 如 有 必 
要 ， 请 查阅 第 2 章 。 就 像 TwitBase Java 项 目 一 样 ， 编 译 你 的 asynchbase 
i 


$ mvn clean package 

[INFO] Scanning for projects... 

[INFO] 

[INFO] ---------- 


去 2— 


[INFO] ~------ 
[INFO] -------- 


[INFO] ------- 


现在 你 可 以 调用 新 类 来 运行 该 应 用 : 


$ java -cp target/twitbase-async-1.0.0.jar \ 
HBaseIA.TwitBase.AsyncUsersTool update 

196 [main] INFO AsyncUsersTool - received a page of users. 

246 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

1251 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

2253 [main] INFO AsyncUsersTool - received a page of users. 

2255 [main] INFO AsyncUsersTool - received a page of users. 

2256 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

3258 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 

3258 [main] INFO AsyncUsersTool - received a page of users. 

4259 [client worker #1-1] INFO AsyncUsersTool - entropy strikes! 

4259 [client worker #1-1] INFO AsyncUsersTool - entropy strikes! 

4260 [client worker #1-1] INFO AsyncUsersTool - Bertrand91, your password 

is unchanged! 

4260 [client worker #1-1] INFO AsyncUsersTool - a thread is napping... 


工作 正常 ! 现在 你 有 了 一 个 可 运行 的 基础 ， 可 以 从 这 里 搭建 一 套 
基于 HBase 的 异步 应 用 系统 。 


6.6 小 结 


部 署 HBase 的 决定 把 你 束缚 在 JVM 上， 至少 在 服务 器 端 是 这 样 。 但 
是 这 个 决定 不 会 限制 你 的 客户 端 应 用 的 选择 。 为 了 管理 模式 迁移 ， 我 
们 建议 使 用 HBase Shell 进 行 脚本 编程 。 如 果 你 的 模式 迁移 特别 复杂 ， 
或 者 如 果 你 想 创建 一 个 ActiveRecord [并 1 风格 的 迁移 工具 ， 训 无 疑问 ， 
你 应 该 研究 一 下 JRuby 库 ，HBase Shell 就 是 在 此 基础 上 创建 的 。 如 果 你 
使 用 Java， 我 们 建议 你 认真 考虑 asynchbase。 异 步 编 程 可 能 是 有 些 挑 
战 ， 但 是 你 已 经 开始 学 习 HBase， 所 以 我 们 认为 你 可 以 应 对 它 。 

除了 JVM 之 外 ， 你 还 可 以 选择 REST 和 Thrift。 因 为 REST 除 了 HTTP 
客户 端 之 外 不 需要 什么 目标 语言 ， 所 以 很 容易 上 手 。 在 集群 上 启动 
REST 服 务 也 很 简单 ， 它 甚至 能 够 适当 地 扩展 。 尽 管 REST 很 方便 ， 但 
Thrift 可 能 是 更 好 的 选择 。Thrift 提供 了 某 种 程度 上 与 语言 无 关 的 API 定 
义 ， 在 社区 里 比 REST 的 使 用 苑 围 更 广 。 像 往 香 一 样 ， 这 样 的 客户 端 选 
择 决定 最 好 是 具体 情况 具体 分 析 。 
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二 S 


第 三 部 分 将 转 为 介绍 应 用 系统 实例 ， 让 你 领略 一 下 真实 的 HBase 应 
用 系统 是 什么 样子 。 第 7 章 将 深入 介绍 OpenTSDB， 这 有 是 一 种 基础 设 
施 监 探 应 用 系统 ， 被 设计 用 来 高 效 存储 和 查询 时 间 序 列 数据 。 在 第 8 章 
中 ， 你 将 看 到 HBase 如 何 应 用 于 地 理 空间 信息 数据 。 你 将 学 到 ， 当 实现 
多 维 空间 信息 查询 时 ， 如 何 改变 HBase 的 模式 以 适应 多 维 空间 信息 数 
据 。 在 学 习 完 这 一 部 分 之 后 ， 你 就 为 从 头 开 始 构架 上 自己 的 分 布 式 、 高 
容错 、 基 于 HBase 的 数据 系统 做 好 了 准备 。 


第 7 章 通过 实例 学 习 HBase: OpenTSDB 


本 章 涵盖 的 内 容 

四 使 用 HBase 作 为 一 种 在 线 时 间 序 列 数据 库 

晶 时 间 序 列 数据 的 特殊 属性 

加 为 时 间 序 列 数 据 设计 HBase 模 式 

加 使 用 复杂 行 键 来 存储 和 得 询 HBase 

本 章 我 们 希望 让 你 感受 一 下 基于 HBase 构 建 的 应 用 系统 是 什么 样 
子 。 学 习 一 种 技术 的 时 候 ， 还 有 比 直 接 看 看 如 何 使 用 它 来 解决 一 个 熟 
悉 的 问题 更 好 的 办 法 吗 ? 与 其 继续 使 用 我 们 虚构 的 TwitBase 示例 ， 还 
不 如 直接 人 研究 一 个 已 经 在 使 用 的 应 用 系统 一 一 OpenTSDB。 我 们 的 目标 
是 向 你 演示 基于 HBase 的 应 用 系统 的 样子 ， 所 以 会 介绍 得 非常 详细 。 


基于 HBase 构 建 应 用 系统 与 基于 其 他 数据 库 有 什么 不 同 呢 ? 当 设 计 
HBase 模 式 时 主要 天 心 什 么 呢 ? 当 实 现 应 用 系统 代码 时 如 何 利 用 这 些 设 
计 呢 ? 这 些 是 我 们 在 本 章 贯 穿 始终 将 要 回答 的 问题 。 到 本 章 结束 时 ， 
你 会 很 好 地 理解 基于 HBase 搭建 应 用 系统 需要 什么 。 也 许 更 重要 的 
是 ， 你 将 深刻 理解 怎样 像 一 个 HBase 应 用 系统 设计 者 那样 思考 问题 。 

开始 阶段 ， 我 们 会 给 你 介绍 一 些 背 景 知识 。 你 会 了 解 到 OpenTSDB 
是 什么 ， 以 及 它 解 决 了 什么 挑战 。 然 后 我 们 剥 去 表层 ， 研 究 应 用 和 数 
据 库 模式 的 设计 。 随 后 ， 你 会 看 到 OpenTSDB 如 何 运 用 HBase。 你 会 看 
到 从 HBase 存 储 和 检索 数据 时 所 必需 的 应 用 逻辑 ， 以 及 如 何 使 用 这 些 数 
据 生 成 提供 给 用 户 的 信息 图 表 。 


7.1 OpenTSDB 概 述 


OpenTSDB 是 什么 ? 下 面 是 直接 从 该 项 目 主页 上 
(www.opentsdb.net) 取 到 的 一 段 描 述 : 

OpenTSDB 是 一 种 基于 HBase 来 构建 的 分 布 式 、 可 扩展 的 时 间 序 
列 数据 库 。OpenTSDB 可 以 用 来 处 理 一 种 通用 需求 : 存储、 索引 和 服 
务 从 大 规模 计算 机 系统 (网 络 设备 、 操 作 系 统 、 应 用 程序 ) 采集 来 的 
监控 指标 数据 ， 并 且 使 这 些 数据 易于 访问 和 可 视 化 。 

因为 OpenTSDB 解决 了 基础 设施 监控 的 普遍 性 问题 ， 所 以 对 于 我 
们 这 本 注重 实战 的 书 而 言 它 是 一 个 了 不 起 的 项 目 。 如 果 你 部 署 过 生产 
系统 ， 你 会 知道 基础 设施 监控 的 重要 性 。 如 果 你 没有 这 种 经 验 ， 世 不 
要 担心 ， 我 们 会 告诉 你 的 。OpenTSDB 存 储 的 数据 是 时 间 序 列 (time 
series) 数据 ， 这 也 是 一 个 有 趣 的 地 方 。 标 准 关 系 模 型 不 太 适 合 高 效 处 
理 时 间 序 列 数 据 的 存储 和 查询 。 关 系 型 数据 库 厂 商 为 解决 这 种 问题 经 
第 会 依靠 一 些 非 标准 的 解决 方案 ， 例 如 ， 把 时 间 序 列 数据 存储 成 不 透 
明 的 “ 团 儿 ”(blob) ， 然 后 用 专用 查询 扩展 模块 进行 解析 。 


团 儿 (blob) 是 什么 ? 

本 章 后 面 你 会 学 到 ， 时 间 序 列 数 据 拥有 清晰 的 特征 。 定 制 的 数据 
结构 可 以 利用 这 些 特性 来 提供 更 高 效 的 存储 和 查询 。 关 系 型 系统 天 生 
不 支持 这 些 特殊 的 存储 格式 ， 因 此 这 些 数 据 结 构 经 常 被 序列 化 成 二 进 
制 表示 ， 并 且 按 照 一 种 没有 索引 的 字 节 数组 来 存储 。 然 后 需要 使 用 定 
制 操作 模块 来 解析 这 种 二 进 制 数据 。 像 这 样 打包 在 一 起 存储 的 数据 通 
常 叫做 一 个 团 儿 。 

OpenTSDB 是 StumbleUpon 公 司 开发 出 来 的 ， 这 家 公司 使 用 HBase 
的 经 验 非 常 丰 富 。OpenTSDB 是 一 个 使 用 HBase 作 为 后 台 存 储 搭建 应 用 
系统 的 了 不 起 的 例子 。OpenTSDB 是 开源 的 ， 所 以 你 可 以 访问 全 部 代 
码 。 整 个 项 目 使 用 了 不 到 1.5 万 行 Java 代 码 ， 因 此 可 以 从 整体 上 对 它 进 
行 消化 吸收 。OpenTSDB 根 本 上 是 一 种 在 线 数据 可 视 化 工具 。 在 学 习 它 
的 模式 时 ， 请 记 住 这 一 点 。HBase 中 存储 的 每 个 数据 点 在 用 户 需要 时 必 
须 能 够 被 访问 ， 如 图 7-1 所 示 的 图 表 那 样 展示 出 来 。 

简单 地 说 ， 这 就 是 OpenTSDB。 下面 我 们 将 更 仔细 地 看 看 
OpenTSDB 被 设计 用 来 解决 什么 挑战 以 及 需要 存储 的 数据 种 类 。 此 后 ， 
我 们 将 思考 对 于 像 OpenTSDB 这 样 的 应 用 系统 ， 为 什么 采用 HBase 是 个 
好 的 选择 。 现 在 先 让 我 们 了 解 一 下 基础 架构 监控 ， 以 便 你 可 以 理解 这 
个 领域 的 问题 如 何 诱发 了 这 种 数据 模式 。 


mysoql .S1ou_queries{tschema=userdby -一 一 
pe apache .stats .latency .99th{} 
| Mysql .created_tmp_files{schema=userdb} 一 ”一 10 
| Mysql .com_delete{schema=userdb} 一 百 一 


# 


GO 
Latency (seconds) 


MySQL counters 


图 7-1 OpenTSDB 图 形 输出 。OpenTSDB 是 一 种 数据 可 视 化 工具 。 
基本 上 它 以 这 样 的 图 形 深入 展示 所 存储 的 数据 


注 : 本 图 形 直接 取 自 OpenTSDB 网 站 。 


7.1.1 : 设施 监 


基础 设施 监控 是 为 了 监视 所 部 署 的 系统 而 使 用 的 术语 。 人 们 部 嗜 
了 大 量 的 软件 项 目 ， 用 来 提供 在 网 络 上 访问 的 在 线 系统 和 服务 。 问 题 
征 ， 你 部 署 了 这 些 系统 ， 这 意味 着 你 有 责任 维护 好 这 些 系 统 。 怎 么 知 
道 系统 是 活着 还 是 死 了 ? 每 小 时 系统 服务 了 多 少 个 请 求 ? 系统 每 天 什 
么 时 间 流 量 最 大 ? 如 末 你 曾经 因为 服务 终止 在 半夜 收 到 过 短信 告警， 
这 说 明 你 已 经 在 使 用 基础 设施 监控 工具 了 。 

基础 设施 监控 不 仅仅 是 通知 和 告警 。 触 发 半夜 告警 的 事件 系列 只 
征 这 类 工具 收集 的 全 部 数据 中 的 一 小 部 分 。 相 关 数 据 还 包括 每 秒 服务 
请 求 数 、 并 发 活跃 用 户 数 、 数 据 库 读 写 、 平 均 啊 应 延迟 、 进 程 占 用 内 
存 等 。 每 一 个 数据 都 是 一 个 特定 监控 指标 的 时 间 序 列 检测 结果 ， 只 是 


提供 了 整体 系统 运行 视图 的 一 部 分 小 快照 。 在 一 段 时 间 窗 口 里 把 这 些 
检测 结果 收集 起 来 ， 你 就 拥有 了 一 个 系统 运行 的 视图 。 

生成 图 7-1 那 样 的 图 片 需要 按照 监控 指标 和 时 间 间 隔 采 集 的 数据 。 
OpenTSDB 必 须 能 够 从 大 量 系统 里 收集 各 种 监控 指标 ， 还 要 文 持 对 任何 
监控 指标 的 在 线 查 询 。 下 一 市 你 将 看 到 这 个 需求 如 何 成 为 OpenTSDB 模 
式 设计 的 重要 考虑 因素 。 

时 间 序 列 数据 在 OpenTSDB 模 式 设 计 中 扮演 了 关键 角色 ， 所 以 我 们 
已 经 多 次 提 到 它 。 让 我 们 熟悉 一 下 这 种 数据 。 

7.1.2 : 时 下 


可 以 把 时 间 序 列 数 据 看 做 数据 点 或 者 二 元 数组 的 一 个 集合 。 每 个 
数据 点 有 一 个 时 间 惟 和 一 个 检测 结果 。 按 时 间 排 序 的 数据 点 集合 是 
时 间 顺 序 的 。 检 测 结果 通常 以 有 规律 的 时 间 间 隔 来 采集 。 例 如 ， 你 可 
能 使 用 OpenTSDB 每 15 秒 采集 一 次 MySQL 进 程 发 送 的 字 节 数 。 本 例 
中 ， 你 会 得 到 一 个 图 7-2 所 示 的 数据 点 序列 。 通 常 这 些 数 据点 也 会 携带 
仿 测 结果 的 元 数据 ， 比 如 生成 一 系列 的 完整 主机 名 。 


O 〇 mimysql.bytes_Sent 
du Mi2:myYSql.bytes_recelived 


Measurements 


Time 


图 7-2 时 间 序 列 数 据 是 一 个 按照 时 间 排 序 的 数据 点 序列 。 在 这 里 ， 


相同 比例 的 两 个 时 间 序列 显示 在 同一 个 图 里 。 它 们 的 时 间 间 隔 不 同 。 

当 可 视 化 地 表示 一 个 时 间 序 列 时 ，X 轴 的 值 一 般 表 示 时 间 戳 

时 间 序 列 数据 通常 在 经 济 学 、 金 融 、 目 然 科 学 和 信号 处 理 中 可 以 
看 到 。 通 过 给 检测 结 打 附加 一 个 时 间 稚 ， 我 们 可 以 了 解 检 测 结 朱 值 随 
时 间 发 展 的 变化 ， 也 可 以 了 解 基于 时 间 的 模式 形态 。 例 如 ， 某 个 地 方 
的 当前 温度 每 小 时 测量 一 次 ， 很 目 然 可 以 根据 前 面 的 点 预测 将 来 的 
点 。 你 可 以 基于 前 5 小 时 的 检测 结果 来 猜测 下 一 小 时 的 温度 。 

时 间 序 列 数据 从 数据 管理 角度 看 颇具 挑战 性 。 系 统 里 所 有 数据 点 
可 能 共享 相同 的 字段 ， 如 日 期 /时 间 、 位 置 和 检测 结果 。 但 是 这 些 字段 
不 同 值 的 两 个 数据 点 可 能 完全 无 关 。 如 果 一 个 点 是 纽约 的 温度 而 另 一 
个 是 旧金山 的 ， 即 使 时 间 戳 相同 它们 可 能 也 下 无 天 的 。 如 何 用 一 种 相 


关 的 高 效 的 方式 存储 和 排序 数据 呢 ? 纽约 的 所 有 检测 结果 不 应 该 存储 
在 一 起 吗 ? 

另 一 个 值得 注意 的 问题 在 于 如 何 记录 这 种 数据 。 在 计算 机 科学 
里 ， 树 (tree) 是 一 种 用 于 随机 访问 的 高 效 的 数据 结构 ， 但 是 当 以 有 序 
方式 构造 树 时 必须 特别 小 心 。 时 间 序 列 天 生 按 照 时 间 排 序 ， 经 常 按照 
这 个 顺序 被 存储 下 来 。 这 可 能 导致 存储 结构 以 最 糟糕 的 方式 构建 ， 如 
图 7-3 (b) 图 所 示 。 


(a) 平衡 树 (b) 不 平衡 树 
图 7-3 平衡 树 和 不 平衡 树 。 把 数据 存 进 基于 数据 值 自我 分 类 的 数据 
结构 时 ， 可 能 导致 最 糟糕 的 数据 分 布 状态 
像 树 一 样 ， 这 种 顺序 也 会 给 分 布 式 系统 带 来 严重 破坏 。HBase 归 根 
结 底 是 一 种 分 布 式 B 树 。 当 数据 按照 时 间 戳 跨 节 点 分 区 时 ， 新 数据 拥塞 
在 单个 节点 上 ， 导 致 热点 (hot spot) 问题 。 随 着 写 入 数据 的 客户 端 增 
加 ， 单 个 市 点 很 容易 被 压 垮 。 
简 而 言 之 ， 这 就 是 时 间 序 列 数 据 。 现 在 让 我 们 看 看 HBase 可 以 给 
OpenTSDB 系统 的 表 带 来 什么 。 


7.13 : HBase 


因为 HBase 近 供 可 扩展 的 数据 存储 能 力 ， 同 时 支持 低 延 迟 查 询 ， 它 
给 OpenTSDB 这 样 的 应 用 系统 提供 了 极 住 的 选择 。HBase 征 一 种 通用 
的 、 具 有 灵活 数据 模型 的 数据 存储 ， 它 文 持 OpenTSDB 设 计 一 种 高 效 
的 、 相 对 可 定制 的 模式 来 存储 数据 。 本 例 中 ， 该 模式 可 以 针对 时 间 序 
列 检测 结 订 和 它们 的 附属 标 谷 而 定制 。HBase 近 供 强 一 致 性 ， 所 以 
OpenTSDB 生 成 的 报表 可 以 作为 实时 报表 使 用 。HBase 提供 的 采集 数据 
视图 一 直 保 持 最 新 状态 。 由 于 OpenTSDB 需 要 支持 巨大 的 数据 量 ， 
HBase 的 水 平 扩展 能 力 古 非常 关键 的 决定 因素 。 

当然 也 可 以 考虑 使 用 其 他 数据 库 。 你 可 能 使 用 MySQL 文 择 
OpenTSDB 这 样 的 系统 ， 但 是 如 条 每 天 采集 数 百 万 数据 点 ，1 个 月 以 后 
那 种 部 署 会 怎么 样 呢 ?6 个 月 以 后 呢 ? 你 的 应 用 基础 设施 运行 18 个 月 以 
后 呢 ? 你 如 何 扩展 最 初 的 MySQL 机 夯 来 处 理 整个 数据 中 心 生 成 的 监控 
数据 量 呢 ?假设 你 已 经 随 着 生成 数据 的 增长 提高 了 部 署 的 配置 ， 并 且 
你 能 够 维护 集群 部 署 。 那 么 你 可 以 为 运 维 团 队 提 供 诊断 一 次 系统 中 断 
而 需要 的 即兴 查询 服务 吗 ? 

如 采 使 用 传统 和 关系 型 数据 库 来 部 署 ， 所 有 这 一 切 是 有 可 能 解决 
的 。 你 会 得 到 一 张 令 人 印象 深刻 的 用 户 案 例 清 单 ， 它 们 描述 了 基于 这 
些 技术 的 大 量 的 成 功 部 署 。 这 里 存在 的 问题 可 以 归结 为 成 本 和 复杂 
性 。 扩 展 一 个 关系 型 系统 来 处 理 这 种 数据 量 需 要 采用 分 区 策略 

(partition) 。 这 种 方式 通常 把 分 区 的 工作 放 进 应 用 代码 里 。 应 用 系统 

无 法 从 这 种 分 区 数据 库 中 查询 数据 。 相 反 ， 应 用 系统 必须 根据 所 有 主 
机 和 所 有 数据 范围 的 当前 信息 来 辨别 哪 一 个 数据 库 持 有 查询 的 数据 。 
男 外 ， 数 据 分 区 情况 下 ， 你 失去 了 关系 型 系统 的 一 个 主要 优点 ， 强 大 
的 查询 语言 。 分 区 了 的 数据 散布 在 彼此 不 知道 的 多 个 机 器 上 ， 这 意味 


着 得 询 功 能 被 弱化 成 按 什 查找。 任何 复杂 一 点 儿 的 查询 又 要 回 到 客户 
端 代码 里 解决 。 

HBase 对 客户 端 应 用 隐藏 了 分 区 的 细节。 由 集群 分 配 和 管理 分 
区 ， 所 以 应 用 代码 很 幸福 地 什么 都 不 需要 知道 。 这 意味 着 ， 在 代码 里 
你 需要 管理 的 复杂 性 大 大 降低 。 虽 然 HBase 不 支持 像 SQL 那 样 丰富 的 查 
询 语言 ， 但 你 可 以 通过 设计 HBase 模 式 从 而 把 在 线 查 询 的 大 部 分 复杂 性 
留 在 集群 上 。HBase 协 处 理 絮 也 文 持 把 任意 在 线 查 询 代 码 留 在 托管 数 
据 的 节点 上 运行 。 此 外 ， 你 拥有 强大 的 MapReduce 来 处 理 离线 查询 ， 这 
赋予 你 更 多 、 更 丰富 的 工具 来 构造 报表 。 现 在 ， 我 们 将 重点 放 在 一 个 
具体 的 例子 上 。 

至 此 ， 你 应 该 已 经 了 解 OpenTSDB 的 目标 ， 以 及 那些 目标 提出 的 技 
术 挑 战 。 让 我 们 深入 细节 ， 学 习 如 何 设计 一 个 应 用 系统 来 满足 这 些 挑 
战 。 


7.2 设计 一 个 HBase 应 用 系统 


尽管 OpenTSDB 可 以 选择 在 关系 型 数据 库 上 搭建 ， 但 是 它 是 一 个 
HBase 应 用 系统 。 那 些 希 望 像 HBase 一 样 具备 扩展 能 力 的 人 们 开发 了 这 
个 数据 系统 。 这 不 同 于 我 们 通常 在 天 系 型 数据 系统 中 使 用 的 方式 。 在 
OpenTSDB 的 模式 设计 和 应 用 架构 里 都 可 以 看 到 这 些 区 别 。 

本 节 从 研究 OpenTSDB 模 式 开 始 。 对 于 许多 人 来 说 ， 这 可 能 是 第 一 
次 看 到 不 同 凡 啊 的 HBase 模式 。 我 们 布 望 这 个 使 用 中 的 实例 可 以 帮助 
你 深入 理解 如 何 使 用 HBase 数据 模型 。 然 后 ， 你 会 看 到 如 何 利 用 HBase 
的 关键 特性 设计 应 用 系统 的 模型 。 


7.2.1 模式 设 ? 


OpenTSDB 使 用 HBase 提 供 两 个 明显 的 功能 。tsdb 表 提供 时 间 序 列 
数据 的 存储 和 查询 支持 。tsdb-uid 表 维护 一 个 全 局 唯一 值 UID 索 引 ， 其 


中 UID 对 应 监控 指标 标签 。 我 们 先 看 看 用 来 生成 这 两 个 表 的 脚本 ， 并 且 
深入 人 研究 每 一 张 表 的 设计 和 用 途 。 首 先 ， 我 们 来 看 看 代码 清单 7-1 所 示 
的 脚本 。 

代码 清单 7-1 使 用 HBase Shell 脚 本 创建 OpenTSDB 使 用 的 表 


#!/bin/sh 
# Small script to setup the hbase table used by OpenTSDB. 


test -n "S$HBASE HOME" || { 4 来 自 环 境 变 量 ， 
echo >&2 'The environment Variable HBASE HOME must be set' 不 是 参数 
exit 1 

} 

test -d "$HBASE HOME" || { 
echo >&2 "No such directory: HBASE HOME=$HBASE HOME" 
exit 1 


} 


TSDB TABLE=${TSDB TABLE-'tsdb')} 
UID TABLE=${UID TABLE-'tsdb-uid'} 
COMPRESSION=$ {COMPRESSION-'L2ZO'} 


exec "S$HBASE HOME/bin/hbase" shell <<EOF 

create 'S$UID TABLE', 创建 拥有 列 族 id 和 
{NAME => 'id', COMPRESSION => '$COMPRESSION')}, name 的 tsdb-uid 表 
{NAME => 'name', COMPRESSION => '$COMPRESSION'} 


i de => '$COMPRESSION'} | 创建 拥有 列 族 t 
EOF 的 tsqb 表 

需要 注意 的 第 一 件 事情 是 ， 这 个 脚本 和 关系 型 数据 库 里 包含 数据 
库 模 式 定义 语言 (Data Definition Language) 代码 的 脚本 是 多 么 相似 。 
DDL 术语 经 常用 来 区 分 定义 修改 模式 的 代码 和 执行 数据 更 新 的 代码 。 
关系 型 数据 库 使 用 SQL 来 修改 模式 ， 而 HBase 依 靠 API。 如 你 看 到 的 ， 
为 此 目的 访问 API 的 最 方便 的 方式 是 通过 HBase Shell 。 

1. 声明 模式 

tsdb-uid 表 包含 两 个 列 族 ， 即 id 和 name。tsdb 表 也 定义 了 一 个 列 
族 ， 叫 做 t。 注 意 列 族 名 的 长 度 相 当 短 。 这 是 因为 HBase 当 前 版 本 中 
HFile 存 储 格式 的 一 个 实现 细 廊 一 一 名 字 越 得 意味 着 每 个 KeyValue 实例 
存储 的 数据 越 少 。 也 请 注意 ， 这 里 没有 高 级 抽象 概念 。 没 有 表 分 组 


(table group) 的 概念 ， 这 一 点 不 像 最 流行 的 关系 型 数据 库 。 在 HBase 
中 所 有 表 的 名 字 存 在 于 HBase master 管理 的 一 个 通用 命名 空间 里 。 
现在 你 看 到 了 在 HBase 里 如 何 创建 这 两 张 表 ， 让 我 们 研究 一 下 如 何 
使 用 它们 。 
2. tsdb-uid 表 
尽管 这 个 表 是 tsdb 表 的 辅助 表 ， 但 是 因为 理解 该 表 存 在 的 原因 有 助 
于 深刻 理解 整体 设计 ， 所 以 我 们 移 研 究 它 。OpenTSDB 模 式 设 计 是 为 时 
间 序 列 检测 结果 和 它们 附加 标签 的 管理 而 优化 的 。 我 们 使 用 标签 
(tag) 来 进一步 识别 记录 在 系统 里 的 检测 结果 。 在 OpenTSDB 里 ， 标 
签 包括 监控 指标 (metric) 、 元 数据 名 字 (metadata name) 和 元 数据 值 
(metadata value) 。OpenTSDB 使 用 一 个 类 ， 即 UniqueId， 来 管理 各 种 
标签 ， 因 此 uid 出 现在 表 名 中 。 图 7-2 里 的 每 个 监控 指标 ， 即 
mysql.bytes_sent 和 mysql.bytes_received， 在 这 张 表 里 有 上 自己 的 唯一 ID 
(Unique ID, UID) 。 
tsdb-uid 表 用 于 管理 UID。UID 固 定 3 个 字 和 宽 ， 作 为 tsdb 表 的 外 键 
联系 使 用 ;， 更 多 细 市 后 面 再 说 。 注 册 一 个 新 UID 会 在 这 个 表 里 添加 两 
行 ， 一行 从 标签 名 映射 到 UID， 男 一 行 从 UID 映射 到 标签 名 。 例 如 ， 
注册 mysql.bytes_sent 监控 指标 会 生成 一 个 新 UID， 在 UID-name 行 里 用 
做 行 键 。 该 行 的 name 列 族 存 储 标签 名 。 列 限定 符 作 为 UID 的 一 种 命名 
空间 使 用 ， 识 别 这 个 UID 是 一 个 监控 指标 (和 元 数据 标签 名 或 值 对 
照 ) 。name-UID 行 使 用 标签 名 作为 行 键 并 在 id 列 族 存 储 UID ， 再 一 次 用 
标签 类 型 作为 列 限 定 符 。 代 码 清单 7-2 展 示 了 如 何 使 用 tsdb 应 用 来 注册 
两 个 新 监控 指标 。 
代码 清单 7-2 在 tsdb-uid 表 里 注册 监控 指标 


hbase@ubuntu:~$ tsdb mkmetric mysql.bytes sent mysql.bytes _ received 
metrics mysql .bytes sent: [0, 0, 1] 
metrics mysql.bytes received: [0, 0, 2] 


hbase@ubuntu:~$ hbase shell 
hbase (main) :001:0> scan 'tsdb-uid', {STARTROW => "\0\0\1"} 


ROW COLUMN+CELDL 

\x00\x00\x01 column=name:metrics, value=mysql .bytes sent 
\x00\x00\x02 column=name:metrics, value=mysql .bytes received 
mysql.bytes received column=id:metrics, value=\x00\x00\x02 

mysql .bytes_ sent column=id:metrics, value=\x00\x00\x01 


4 row(s) in 0.0460 seconds 
hbase (main) :002:0> 


name-UID 行 支持 标签 名 目 动 付 全 功能 。OpenTSDB 的 用 户 界面 支 
持 用 户 在 融入 UID 名 字 时 自动 从 这 个 表 里 把 含有 输入 字符 的 数据 提示 给 
用 户 。 这 个 功能 是 通过 限定 行 链 范 围 的 HBase 行 扫描 实现 的 。 后 面 你 会 
看 到 这 段 代码 是 如 何 工 作 的 。 当 记录 新 值 时 ， 接 收 输 入 数据 并 把 监控 
指标 名 字 映 和 届 到 相应 UID 的 服务 也 会 用 到 这 些 行 。 

3. tsdb 表 

这 个 表 是 时 间 序 列 数据 库 的 心脏 : 存储 时 间 序 列 检测 结 末 和 元 数 
据 的 表 。 该 表 设 计 用 来 文 持 按照 日 期 范围 和 标签 进行 过 滤 的 数据 查 
询 。 这 可 以 通过 行 键 的 精心 设计 来 实现 。 该 表 的 行 键 如 图 7-4 所 示 。 请 
看 一 看 ， 然 后 我 们 会 略 过 它 。 


部 分 时 间 稚 
(4 字 节 ) 


图 7-4 OpenTSDB 行 链 的 布局 包含 3 字 市 的 监控 指标 ID、4 字 市 的 时 
间 礁 高 序 位 和 各 3 字 市 的 标签 名 ID 和 标签 值 ID， 重 复 其 他 标签 名 和 标签 
值 
还 记得 tsdb-uid 表 里 标签 名 注册 时 生成 的 UID 吗 ? 它们 被 用 在 该 表 
的 行 键 里 。OpenTSDB 针 对 以 监控 指标 为 中 心 的 查询 进行 优化 ， 所 以 监 
控 指标 UID 排 在 最 开始 的 位 置 。HBase 按 行 键 排序 来 存储 行 ， 所 以 单个 
监控 指标 的 整个 历史 数据 存储 在 连续 的 行 里 。 在 同一 个 监控 指标 的 行 


里 ， 它 们 按时 间 戳 排序 。 行 键 里 的 时 间 戳 四 售 五 入 到 60 分 钟 ， 所 以 一 
个 单行 存储 某 一 个 小 时 检测 结 末 的 数据 棚 。 标 签名 和 值 UID 在 行 键 里 位 
于 最 后 位 置 。 在 行 刍 里 存储 所 有 这 些 属性 让 我 们 在 过 滤 搜 索 结 采 时 可 
以 使 用 它们 。 很 快 你 会 看 到 那 是 怎么 做 的 。 

现在 我 们 已 经 研究 了 行 键 ， 让 我 们 再 看 看 检测 结果 是 怎么 存储 
的 。 注 意 这 个 模式 只 有 一 个 列 族 t。 这 是 因为 HBase 要 求 一 张 表 至 少 包 
舍 一 个 列 族 。 该 表 没 有 使 用 列 族 来 组 织 数据 ， 但 是 ，HBase 需 要 有 一 个 
列 族 。OpenTSDB 使 用 包含 两 部 分 内 容 的 2 字 节 (16 位 ) 列 限 定 符 : 前 
12 位 是 四 售 五 入 后 的 秒 数 ， 后 面 4 位 是 位 掩 码 。 检 测 结果 存储 在 单元 
里 ， 占 用 8 字 市 。 列 限定 符 如 图 7-5 所 示 。 


低 序 时 间 截 掩 码 
(12 位 ) (4 位 ) 


图 7-5 列 限定 符 存 储 时 间 惟 的 最 终 精度 和 位 掩 码 。 撼 码 的 第 一 位 表 
明 单 元 中 的 值 是 整数 还 是 浮 点 数 

举 个 例子 看 看 。 比 如 说 ， 存 储 mysql.bytes_sent 监 控 指 标的 检测 结 
果 476， 在 ubuntu 主机 上 ， 时 间 是 Sun, 12 Dec 2010 10:02:03 GMT。 你 
把 监控 指标 (metric) UID 部 分 存储 为 0x1，host 标 签名 为 0x2，ubuntu 标 
签 值 为 0x3。 其 中 时 间 惟 按照 UNIX 格 式 描述 为 值 1292148123。 这 个 值 
四 售 五 入 到 最 近 的 小 时 数 并 且 分 割 成 1292148000 和 123。 插 入 tsdb 表 的 
行 键 和 单元 如 图 7-6 所 示 。 同 一 主机 上 同一 监控 指标 同一 小 时 内 采集 的 
其 他 检测 结果 都 将 存储 在 该 行 的 其 他 单元 里 。 


mysql.bytes_sent host 


高 序 时 间 截 ubuntu 
列 族 掩 码 
列 
低 序 时 间 稚 
单元 值 476 
检测 结 


图 7-6 在 tsdb 表 里 存储 1292148123 秒 时 间 惟 的 mysql.bytes_sent 监 控 
指标 的 检测 结果 476 的 一 个 示例 : 行 键 、 列 限定 符 和 单元 值 
我 们 在 Java 应 用 里 不 常 看 到 这 种 位 级 别 上 的 考虑 ， 对 吧 ? 考虑 这 种 
情况 大 多 都 是 为 了 性 能 优化 。 每 行 存储 多 个 观测 值 可 以 让 带 过 滤器 的 
扫描 在 一 次 过 滤 里 滤 掉 更 多 的 数据 。 这 也 会 大 大 减少 基于 行 键 的 布 隆 
过 滤器 需要 跟踪 的 行 数 。 


现在 你 已 经 了 解 了 HBase 模式 的 设计 ， 让 我 们 学 习 如 何 使 用 与 
OpenTSDB 相同 的 方法 搭建 一 个 可 靠 的 、 可 扩展 的 应 用 系统 。 


7.2.2 应 用 架构 


继续 研究 OpenTSDB 时 ， 记 住 这 些 HBase 设 计 的 基础 是 有 大助 的 : 

四 其 于 多 而 不 是 单个 大 服务 器 ; 

图 月 动 对 数据 分 区 和 管理 分 区 ; 

加 跨 分 区 数据 的 强 一 四 

晶 数据 服务 的 高 可 用 性 

高 可 用 能 力 和 线性 扩展 能 力 经 常 是 决定 选择 HBase 搭 建 应 用 系统 的 
主要 原因 。 依 靠 HBase 的 应 用 系统 经 常 十 要 : 满足 这 样 的 要 求 。 让 我 们 看 
看 OpenTSDB 如 何 通过 架构 的 选择 来 满足 这 些 目 标 。 其 架构 如 图 7-7 所 
了 


HBase 
| 
| 
P== -= | 
| | | | 
I Ve I = 和 
(Cm) ’ Fi 本 
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数据 采集 


图 7-7 OpenTSDB 架构 图 : 把 重点 任务 分 开 。3 个 重点 任务 是 数据 
采集 、 数 据 存储 和 提供 查询 服务 
从 概念 上 讲 ，OpenTSDB 有 3 个 任务 : 数据 采集 、 数 据 存储 和 提供 
查询 服务 。 你 可 能 猜 到 了 ，HBase 提 供 数 据 存储 ， 可 以 满足 这 个 需求 。 
OpenTSDB 如 何 满足 其 他 需求 呢 ? 让 我 们 逐个 看 看 ， 你 会 看 到 它们 是 如 
何 通 过 HBase 结 合 在 一 起 的 。 
1. 提供 查询 服务 


OpenTSD 有 一 个 处 理 与 HBase 交 互 的 进程 叫做 tsd。 它 使 用 简单 的 
HTTP 接 口 山 . 提供 基于 HBase 的 查询 服务 。 用 户 可 以 要 求 查 询 元 数据 ， 
或 者 查询 显示 时 间 序 列 数据 的 图 片 。 所 有 tsd 进 程 都 是 相同 的 和 无 状态 
的 ， 所 以 运行 多 个 tsd 机 器 就 实现 了 高 可 用 性 。 到 达 这 些 机 器 的 流量 可 
以 通过 一 台 负 载 均衡 器 进行 路 由 ， 怠 像 导 流 任何 其 他 的 HITP 流 量 一 
样 。 因 为 服务 请 求 可 以 被 路 由 到 不 同 的 机 器 上 ， 所 以 单 台 机 器 的 中 断 
不 会 影响 客户 端 。 

每 个 查询 是 独立 的 ， 可 以 由 一 个 tsd 进 程 独立 回应 。 这 支持 
OpenTSDB 的 读 取 可 以 实现 线性 可 扩展 能 力 。 客 户 端 请 求 数量 的 增长 可 
以 通过 运行 更 多 的 tsd 机 器 来 应 对 。OpenTSDB 查 询 的 独立 特性 还 有 一 
个 附加 的 好 处 ， 即 可 以 通过 tsd 绥 存 提供 查询 结果 。OpenTSDB 的 读 过 
程 如 图 7-8 所 示 。 
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1 用 户 指定 查询 参数 。 
2 tsd 构 造 过 滤器 ， 提 交 范 围 扫描 请 求 。 
3 HBase 扫 描 行 键 范围 ， 发 出 过 滤 后 的 记录 ， 返 回 结 
4tsd 给 出 时 间 序 列 数据 。 
图 7-8 OpenTSDB 读 过程 。 查 询 请 求 被 路 由 到 一 个 可 用 的 tsd 进 程 
上 ， 该 进程 查询 HBase 并 以 适当 的 格式 返回 结 

2， 数据 采集 

可 以 说 ， 数 据 采集 需要 “脚踏实地 ”。 某 个 进程 在 某 个 地 方 从 被 监 
控 的 主机 上 收集 数据 并 且 存 储 到 HBase 里 。OpenTSDB 把 采集 的 负担 放 
在 被 监控 主机 上 ， 从 而 使 得 数据 采集 可 以 线性 扩展 。 每 台 机 器 本 地 运 
行 采集 检测 结果 的 进程 ， 并 且 每 台 机 器 人 负责 发 送 数 据 给 OpenTSDB。 往 


基础 设施 里 增加 新 主机 不 会 在 OpenTSDB 集 群 的 和 点 上 增加 额外 的 负 
载 o 

如 采 网 络 连 接 超时 ， 或 者 采集 服务 般 吝 ，OpenTSDB 如 何 保 证 监控 
言 息 的 提交 呢 ? 事实 上 ， 实 现 高 可 用 性 并 不 复杂 。 在 每 台 被 监控 主机 
上 运行 的 tcollector I 守护 进程 通过 本 地 收集 检测 结果 来 处 理 这 些 问 
题 。 该 进程 一 直 等 竺 这 种 网 络 中 断 结 束 ， 负 责 确 保 监 控 信 息 发 送 到 
OpenTSDB。 它 还 管理 采集 脚本 ， 按 照 合 适 的 时 间 间 隔 运 行 它们 ， 或 者 
当 它 们 衣 溃 时 重启 它们 。 还 有 一 个 附加 的 好 处 ， 为 tcollector 编 写 的 来 集 
代理 可 以 古人 简单 的 Shell 脚 本 。 

采集 器 代理 并 不 直接 写 入 HBase。 直 接 写 入 的 方式 需要 tcollector 
安装 附带 的 HBase 客户 端 库 以 及 所 有 依赖 项 和 配置 。 这 会 给 HBase 带 
来 不 必要 的 巨大 负担 。 因 为 tsd 已 经 部 署 被 用 来 文 持 和 查询 工作 ， 所 以 它 
也 被 用 来 接收 数据 。tsd 进 程 使 用 一 种 简单 的 类 似 Telnet 的 协议 来 接收 监 
控 信息 。 然 后 它 处 理 与 HBase 的 交互 。 因 为 tsd 只 人 负 员 很 少 的 写 入 工作 ， 
所 以 少量 的 tsd 实例 就 可 以 应 对 很 多 倍 的 tcollector 代理 。OpenTSDB 写 
过 程 如 图 7-9 所 示 。 


数据 存储 
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HBase 


1 主机 报告 检测 结果 给 本 地 tcollector。 
2 tcollector 发 送 检 测 结 果 给 远程 的 tsd。 
3tsd 构 造 记录 ， 并 把 数据 写 入 HBase 。 
4 HBase 存 储 数据 ， 并 确认 写 入 请 求 。 
图 7-9 OpenTSDB 写 过 程 。 被 监控 主机 上 的 采集 脚本 报告 检测 结 
给 本 地 的 tcollectorj 进 程 。 然 后 检测 结果 被 传送 给 tsd 进 程 ， 该 进程 把 监 
控 信 息 写 到 HBase 
现在 你 对 OpenTSDB 有 了 完整 的 认识 。 更 为 重要 的 是 ， 你 已 经 看 到 
一 个 应 用 系统 如 何 利 用 HBase 的 优点 。 这 没有 什么 特别 值得 惊讶 的 ， 尤 
其 是 如 果 你 以 前 曾经 开发 过 高 可 用 系统 。 但 是 值得 注意 的 是 ， 当 数据 
存储 系统 提供 这 些 默 认 特性 时 ， 一 个 应 用 系统 可 以 如 此 简单 地 实现 。 
下 面 我 们 来 看 一 些 代码 。 


7.3 实现 一 个 HBase 应 用 系统 


准备 使 用 HBase ! 请 注意 HBase 主 页 上 直接 列 出 的 下 面 这 些 接口 特 
性 。 

加 提供 易 用 的 Java API 供 客户 端 访问 。 

田 支持 Thrift 网 关 和 支持 XML、Protobuf 和 二 进 制 数据 编码 的 
RESTful Web 服务 。 

四 使 用 服务 絮 端 的 过 滤 絮 查询 决定 下 推 数 据 。 

OpenTSDB 的 tsd 是 用 Java 实 现 的 ， 但 是 为 了 各 种 访问 使 用 了 男 一 个 
叫做 asynchbase Bl 的 客户 端 库 ， 我 们 在 第 6 章 深 入 研究 过 相同 的 
asynchbase。 为 了 让 讨论 尽 可 能 普遍 适用 ， 我 们 先 展 示 访 问 HBase 的 伪 
代码 ， 然 后 展示 来 目 于 OpenTSDB 的 代码 。 如 采 你 知道 数据 是 如 何 写 入 
的 ， 会 更 容易 理解 数据 是 如 何 读 取 的 ， 所 以 这 次 我 们 从 写 过 程 开 始 。 


7.3.1 存储 数据 


如 同 你 在 研究 OpenTSDB 模 式 时 看 到 的 ，OpenTSDB 把 数据 存储 在 
两 个 表 里 。 在 把 一 行 插 入 到 tsdb 表 之 前 ， 需 要 先生 成 所 有 的 UID。 让 我 
们 从 头 开 始 。 

1. 创建 UID 

把 一 个 检测 结 采 写 入 tsdb 表 之 前 ， 必 须 先 把 它 的 标签 写 入 tsdb- 
uid。 在 伪 代 码 里 ， 这 个 过 程 由 Uniqueld.getOrCreateId() 方 法 处 理 ， 如 代 
码 清 单 7-3 所 示 。 

代码 清单 7-3 往 tsdb-uid 表 插入 一 个 标签 的 伪 代 码 
~ ro Bil 


ID_FAMILY = toBytes("id") ee 
为 每 一 种 标签 创建 


NAME FAMILY = toBytes ("name") 
一 个 实例 


def UniqueId(this, table, kind): 


this.table = table 


this.kind = toBytes (kind) 4 种 类 可 能 是 监控 指标 、 
def getOrCreateId (this，mname) : 标签 名 或 标签 值 
uid = i i 如 果 UID 存 在 
if 0x0 1= uid: 则 返回 名 字 对 
return uid 应 的 UID 


uid = HBase.incrementColumnValue (MAXID ROW, 
ID FAMILY., 
this.kind) 
HBase.put (this.table, toBytes (uid), 
NAME FAMILY, this.kind, toBytes (name)) 


否则 生成 和 存储 
新 UID 


写 人 UID=> name 映射 信息 


HBase.put (this.table, toBytes (name), ID FAMILY, 


this.kind, toBytes (uid)) | 写 人 name => UID 映射 信息 


tsd 进 程 为 表 里 存 储 的 每 种 UID 实 例 化 一 个 UniqueId 类 。 本 例 中 ， 
metric (监控 指标 ) 、tag name (标签 名 ) 和 tag value (标签 值 ) 是 系 
统 里 的 3 种 UID。 本 地 变量 kind 需要 在 构造 贸 数 里 被 恰当 设置 ， 还 有 变 
量 table 设置 表 名 ， 默 认 值 是 tsdb-uid。UniqueId.getOrCreateId(0) 方 法 做 
的 第 一 件 事 是 看 看 表 里 是 否 已 经 有 这 种 UID。 如 果 有 ， 你 已 经 创建 了 
UID， 返 回 该 数据 ， 继 续 ， 否 则 ， 为 这 种 映射 创建 和 注册 新 UID 。 

我 们 使 用 存储 在 表 里 的 计数 器 的 形式 来 创建 新 UID， 使 用 Increment 
命令 递增 。 新 UID 被 创建 后 ， 两 个 映射 相应 被 存储 到 表 里 。 一 个 映射 一 
旦 被 写 入 ， 它 束 永 不 改变 。 因 此 ，UID-name 的 映射 在 name-UID 有 映射 之 
前 写 入 。 这 里 出 现 故障 会 导致 出 现 一 个 作废 的 UID ， 但 不 会 有 进一步 的 
和 危害。 一 个 没有 配对 的 name-UID 映 射 则 意味 着 ， 系 统 里 有 标签 名 但 是 
水 远 不 能 从 检测 结 采 记录 里 分 解 出 来 。 这 会 导致 无 主 孤儿 数据 ， 所 以 
是 非常 糟糕 的 。 最 后 ， 写 入 双向 映射 后 ， 返 回 UID。 

由 于 还 有 错误 处 理 代码 和 客户 端 API 不 支持 的 一 个 特性 的 临时 处 理 
代码 ， 该 方法 的 Java 代 码 包 合 一 些 额外 的 复杂 的 内 容 。 为 简洁 起 见 ， 去 
掉 额 外 考虑 部 分 之 后 的 代码 如 代码 清单 7-4 所 示 “。 

代码 清单 7-4 UniqueId.getOrCreateId() 方 法 的 精简 Java 代码 


这 


public byte[] getorCreateId(String name) throws HBaseException { 
HBaseException hbe = null,; 


try { 


return getId(name) ; 省 略 错误 处 理 


} catch (NoSuchUniqueName e) { 


} 


仅仅 用 来 临时 处 理 没有 RPC 协议 的 
特性 的 行销 ( rowlock ) 


RowLock lock = ... getLock(),; 
EEy i 
“ { a a , 验证 该 行 不 存在 ， 
ina yte id = getIQ(name) ; 2 
return id; 避免 竞争 状态 
Se ee 3 
} catch (NoSuchUniqueName e) {} 省 略 错误 处 理 
long id; 
byte [] row; 攻 到 
tr 与 id 相同 ， 但 按 字 节 数组 处 理 
到 
row = hbaseICV (MAXID ROW, ID FAMILY, lock) 
if (row == null) { 
和 二 > 
row = Bytes.fromLong (id); 
} else { 
id = Bytes.getLong (row); 
} 省 略 UID 宽度 验证 信息 


row = Arrays.copyOfRange (row, row.length - idWidth, row.length),; 
} Sateh (os a) { 


} 省 略 错误 处 理 
Cay: 
final PutRequest reverse mapping = new PutRequest( 创建 
table, row, NAME FAMILY, kind, toBytes (name)); 反 向 
hbasePutWithRetry (reverse mapping, MAX ATTEMPTS PUT, 
INITIAL EXP BACKOFF DELRAY) ; 映射 
上 eh (0. .0 
} | 省 略 错误 处 理 
EE 4 
final PutRequest forward mapping = new PutRequest ( 创建 
table, toBytes (name), ID FAMILY, kind, row); 正 向 
hbasePutWithRetry (forward mapping, MAX ATTEMPTS PUT, 映射 
INITIAL EXP BACKOFF DELAY); 
} wabeh fd) { 
} 省 略 错误 处 理 


addIdToCache (name, row); 
addNameToCache (row, name); 
return row; 

finally { 

unlock (lock),; 


注册 完 标 签 后 ， 你 可 以 继续 在 tsdb 表 里 为 一 条 记录 生成 一 个 行 键 。 

2. 生成 部 分 行 键 

在 tsdb 表 里 相 同 监 控 指 标 和 标 等 名 的 行 键 看 起 来 是 相同 的 ， 只 是 
时 间 戳 不同。OpenTSDB 在 mcomingDataPoints.rowKeyTemplate() 方 法 
里 实现 了 这 种 行 键 部 分 构造 的 功能 。 实 现 该 方法 的 伪 代 码 如 代码 清单 7- 
5 所 示 。 

代码 清单 7-5 生成 行 键 的 伪 代 码 


class IncomingDatapPoints: 

TIMESTAMP BYTES = 4 
tags 是 一 个 从 标 
签名 到 标签 值 映 


def static getOrCreateTags (tsdb, tags): 


tag ids = [] 
ey 
for(name, value in tags.sort()): < 一 一 射 的 集合 
bag os += tsdb.tag names.getOrCreateld (name) 4 I 
tag ids += tsdb.tag Values .getOrCreateId (value) < 一 一 s 是 一 个 UD 实例 
return ByteArray (tag_ ids) tsdb.tag_values 


也 是 一 个 UID 实例 


def static rowKeyTemplate(tsdb, metric, tags): 


metric width = tsdb.metrics.width!() 需要 tsdb 实例 

tag name width = tsdb.tag names.width() 人 

tag value width = tsdb.tag values.width() 

num tags = tags.size() 

row size = (metric width + TIMESTAMP BYTES 行 键 的 宽度 根据 标签 
+ tag name width * num tags 的 数量 而 变化 


+ tag_value_width * num tags) 
row = ByteArray (row_ size) 
tsdb.metrics 
row[0 .. metric width] = 是 一 个 UID 实例 
tsdb .metrics .getOrCreateId (metric) 
row [metzic_width + TIMESTAMP BYTES ..] = 


最 后 加 上 标签 UID 
getOrCreateTags (tsdb, tags) 


这 个 方法 的 主要 考虑 是 正确 摆 放 行 键 的 各 个 部 分 。 如 在 前 面 图 7-5 
里 看 到 的 ， 这 个 次 序 是 监控 指标 的 UID (metric UID) 、 部 分 时 间 戳 
(partial timestamp) 和 标签 名 值 对 的 UID (tag pair UID) 。 请 注意 ， 在 
插入 前 标签 是 有 序 的 。 这 保证 了 相同 的 监控 指标 和 标签 每 次 映射 到 相 
同 的 行 键 。 


代码 清单 7-6 所 示 的 Java 实 现 几乎 等 同 于 代码 清单 7-5 所 示 的 伪 代 
码 。 最 大 的 不 同 在 于 辅助 方法 的 结构 。 
代码 清单 7-6 IncomingDataPoints.rowKeyTemplate() 方 法 的 Java 代 人 码 


static byte[] rowKkeyTemplate(final TSDB tsdb, 
final String metric, 
final Map<String, String> tags) { 
final short metric width = tsdb.metrics.width(),; 
final Short tag name width = tsdb.tag names.width(); 
final Short tag value width = tsdb.tag values.width(); 
final Short num tags = (short) tags.size(); 


int row size = (metric width + Const.TIMESTAMP BYTES 
+ tag name width * num tags 
+ tag value width * num tags); 

final byte[] row = new bytel[row Size] ; 


Short pos = 0; 


copyInRowKey (row, pos, (AUTO METRIC ? tsdb.metrics.getOrCreateId (metric) 
: tsdb.metrics.getId (metric))).; 
pos += metric width; 


pos += Const .TIMESTAMP BYTES; 


for (final byte[] tag : Tags.resolveOrCreateAll (tsdb, tags)) { 
copyInRowKey (row, pos, tag); 
pos += tag.length,; 

} 


return row; 


这 就 是 全 部 内 容 ! 现在 你 已 经 知道 了 所 有 的 东西 。 
3. 写 入 检测 结 
所 有 必需 的 辅助 方法 已 经 就 绪 ， 是 写 入 一 条 记录 到 tsdb 表 的 时 候 
了 。 这 个 过 程 如 下 。 
( 
( 
( 
( 


1) 构建 行 键 。 
2) 确定 列 族 和 列 限 定 符 。 
3) 确认 存 入 单元 的 内 容 。 
4) 写 入 记录 。 
这 个 逻辑 封装 在 TSDB.addPoint0 方 法 里 。 代 码 清单 7-6 里 的 那些 
tsdb 实 例 是 这 个 类 的 实例 。 让 我 们 在 深入 研究 Java 实 现 之 前 再 次 使 用 伪 


代码 ， 如 代码 清单 7-7 所 示 。 
代码 清单 7-7 插入 一 条 tsdb 记 录 的 伪 代 码 
class TSDB: | 每 行 的 时 间 间 隔 60 


FAMILY = sa SS 秒 x 60 分 钟 =1 小 时 | 2 字 节 的 列 限 定 符 为 


MAX TIMESPAN 三 Tr 1 ED 1 人 全 
FLAG BITS ke 掩 码 保留 4 个 位 
FLOAT FLA = 1011 ee Rs 

OAT_FLAGS 011b | 二 进 制 标志 掩 码 
LONG_ FLAGS = 0111b 


def addPoint (this, metric, timestamp, value, tags): 


row = 
IncomingDataPoints.rowKeyTemplate(this, metric, tags) 组 装 

base time = (timestamp - (timestamp % MAX TIMESPRAN) ) 行 键 

row[lmetrics.width()..] = base time 

flags = value.isFloat? ? FLOAT FLAGS : LONG FLAGS 组 法 

qualifier = (timestamp - basetime) << FLAG BITS | flags 列 限 

qualifier = toBytes (qualifier) 定 符 


HBase.put (this.table, row, FAMILY, qualifier, toBytes (value)) 

写 入 值 束 是 这 么 简单 ! 现在 我 们 看 看 用 Java 实 现 同样 的 事情 。 写 入 
数据 类 型 Longs 和 Floats 的 代码 基本 相同 。 我 们 看 看 写 入 数据 类 型 
Longs 的 代码 ， 如 代码 清单 7-8 所 示 。 

代码 清单 7-8 实现 TSDB.addPoint() 的 Java 代 码 


public Deferred<Object> addPoint (final String metric, 
final long timestamp, 
final long value, 
final Map<String, String> tags) { 
final short flags = 0x7; 
return addPointIinternal (metric, timestamp, Bytes.fromLong (value) ， 
tags, flags); 


} 


private Deferred<Object> addPointInternal (final String metric, 
final long timestamp, 
final byte[] value, 
final Map<String, String> tags, 
final short flags) { 
if ((timestamp & OXxFFFFFFFFOO0000000L) != 0) { 


和 < 一 一 
} throw 检验 timestamp<0 或 者 
timestamp >Integer. 


IncomingDataPoints.checkMetricAndTags (metric, tags); MAX_VALUE 


final bytel[] row = IncomingDatapPoints.rowKeyTemplate(this, metric, tags); 


final long base time = (timestamp - (timestamp % Const.MAX TIMESPAN)); 
Bytes.setIint (row, (int) base time, metrics.width()); 
final Short qualifier = (short) ((timestamp - base time) << 


Const .FLAG BITS | flags); 
final PutRequest point = new PutRequest (table, row, FAMILY, 
Bytes .fromShort (gualifier), value); 
return client.put (point); 


回顾 一 下 前 面 的 代码 清单 ， 无 论 伪 代 码 还 是 Java 代 码 ， 部 没有 太 多 
与 HBase 的 交互 内 容 。 写 入 一 行 最 复 灯 的 部 分 是 组 装 需 要 写 入 的 值 。 写 
入 记录 反倒 是 容易 的 部 分 ! OpenTSDB 需 要 精心 组 装 行 键 。 这 些 努力 在 
读 取 时 将 会 得 到 回报 。 下 一 市 告诉 你 如 何 得 到 回报 。 


数据 存 入 HBase 后 ， 能 把 它 按照 需要 读 取出 来 才 是 有 用 的 。 
OpenTSDB 在 两 种 不 同 的 使 用 情况 下 需要 这 样 做 : UID 名 字 自 动 补 全 ， 
查询 时 间 序 列 数据 。 这 两 种 情况 下 ， 读 取 数 据 的 步骤 顺序 相同 。 

(1) 确定 行 键 范围 。 

(2) 定义 适当 的 过 滤器 标准 。 

(3) 执行 扫描 。 


让 我 们 看 看 在 实现 时 间 序 列 元 数据 自动 补 全 时 需要 什么 。 

1. UID 名 字 自 动 补 全 

还 记得 tsdb-uid 表 里 的 双 辐 映射 吗 ? 其 中 的 反 向 上 映射 用 来 支持 图 7- 
10 所 示 的 目 动 补 全 UI 特 性 。 


T S D Time Series Database 


Graph Stats Logs Version 


From To (now) Autoreload WxH: -20x0 
Axes Key | 
¥ Y2 
et ~ ] | Label 
Metric: my -JJRateLJRight Axis 
2 Aggregator [ sum 3 Format 
Tags mysql.bytes_received Downsample Range | [0:] [0] 
mysql.bytes_sent avg :| 10m Log 


Please specify a start time. 


图 7-10 存储 在 tsdb-uid 表 里 的 name-UID 上 映射 支持 OpenTSDB 监 控 指 
标 自动 补 全 功能 

HBase 使 用 访问 数据 的 行 键 扫描 模式 来 文 持 这 种 应 用 特性 。HBase 
在 每 张 表 的 行 键 上 维护 索引 ， 所 以 定位 起 始点 非常 快 。 然 后 ，Hbase 的 
BlockCache 发 挥 作 用 ， 从 内 存 里 快速 读 取 连续 的 数据 块 ， 必 要 时 从 
HDFS 里 读 取 。 本 例 中 ， 那 些 连 续 的 数据 块 保存 着 tsdb-uid 表 里 的 行 。 
在 图 7-10 里 ， 用 户 在 监控 指标 字段 输入 my。 这 些 字符 被 认为 是 扫描 的 
起 始 键 。 你 只 想 显 示 匹 配 这 个 前 级 的 条 目 ， 所 以 扫描 的 停止 行 计算 到 
mz。 你 也 只 想得到 在 列 族 id 上 有 值 的 记录 〈 也 就 是 name-UID 映 射 的 记 
录 ， 在 列 族 id 上 有 值 ; 否则 你 会 把 UID 当做 文本 解释 出 来 (不 应 该 
是 UID-name 映射 的 记录 ) 。 代 码 清 单 7-9 所 示 的 这 段 Java 代 码 很 容易 
读 懂 ， 所 以 我 们 跳 过 伪 代 码 。 


代码 清单 7-9 用 UniqueId.getSuggestScanner(0) 方 法 在 tsdb-uid 表 上 创 
建 一 个 扫描 器 


private Scanner getSuggestScanner (final String search) { 
final byte[] start row; 
final byte[l] end row; 
if (search.isEmpty()) { 
start row = START ROW; 


空 值 搜索 从 ! 到 一 


end row = END ROW; 扫描 ASCII 码 
‘my ' 的 起 始 键 为 
tl es [mp] 


start row = toBytes(search); 
end row = Arrays.copyOf (start row, start row.length); 


end rowlstart row.length - 1]++; "my ' 的 停止 键 为 
} byte[] ['m' 'z' 
final Scanner scanner = client.newScanner (上 able) ; 
scanner.setStartKey (start row); 各 
scanner.setStopKey (end row); 包括 name-UID 
scanner.setFamily (ID FAMILY),; 4 的 行 
scanner.setQualifier (kind); 1 

只 包括 UID: 

scanner.setMaxNumRows (MAX_SUGGESTIONS ) ; 人 
return scanner; metrics 类 型 


扫 接 器 构造 出 来 后 ， 从 HBase 中 读 取 记录 束 像 读 取 任何 其 他 的 从 代 
句 一 样 。 读 取 扫 描 句 的 建议 做 法 是 ， 提 取 成 字 市 数组 并 把 它 解 释 为 字 
符 串 。 列 表 用 来 维护 返回 结果 的 排序 次 序 。 代 码 清单 7-10 中 是 Java 代 
码 ， 再 次 去 掉 了 额外 的 辅助 部 分 。 

代码 清单 7-10 Uniqueld.suggest() 方 法 的 精简 Java 代 码 


public List<String> suggest (final String search) throws HBaseException { 
final Scanner scanner = getSuggestScanner (search); 


final LinkedList<String> suggestions = new LinkedList<String>() ; 
try { 
ArrayList<ArrayList<KeyValue>> rows; 
while ((rows = scanner.nextRows() .joinUninterruptibly()) != null) { 
for (final ArrayList<KeyValue> row : rows) { < 注 ， . - 
-. 后 行 里 的 每 个 单元 都 
final byte[] key = row.get (0) .key(); 是 键 值 (KeyValue ) 


final String name = fromBytes (key); 


et i 验证 行 的 大 小 ,每 行 应 
suggestions.add (name); 省 略 缓存 逻辑 部 分 该 只 有 一 个 单元 
if ((short) suggestions.size() > MAX SUGGESTIONS) { 
break; 
} 
} 
} 


return suggestions; 


} 

2. 读 取 时 间 序 列 数据 

同样 的 技术 被 用 来 从 tsdb 表 里 读 取 时 间 序 列 数据 段 。 因 为 该 表 的 
行 键 比 tsdb-uid 表 复 杂 ， 所 以 这 种 查询 要 复杂 一 些 。 这 种 复杂 性 体现 在 
多 字段 过 滤 如 。 对 于 这 张 表 ， 监 控 指 标 、 日 期 疙 围 和 标签 都 要 在 过 小 
句 里 考 虚 到 。 这 种 过 滤器 应 用 在 HBase 服 务 器 问 ， 而 不 是 客户 端 。 因 为 
这 样 可 以 大 大 减少 传送 给 tsd 客 户 端的 数据 量 ， 这 个 细节 是 极其 重要 
的 。 请 记 住 ， 这 里 过 滤 右 使 用 了 一 种 建立 在 行 键 里 不 可 读 字 节 上 的 正 
则 表达 式 。 

这 种 扫描 和 前 面 例子 的 另 一 个 主要 区 别 是 时 间 序 列 聚 合 。 
OpenTSDB 的 UI 文 持 把 同一 标签 的 多 个 时 间 序 列 数据 聚合 到 一 个 时 间 序 
列 来 显示 。 这 些 标签 组 也 必须 在 构建 过 滤器 时 考虑 到 。 为 此 TsdbQuery 
用 到 私有 变量 group_bys 和 group_by_values 。 

所 有 这 些 过 滤器 都 通过 TsdbQuery.run() 方 法 实现 。 这 个 方法 与 之 前 
的 方法 工作 流程 相似 ， 创 建 带 过 滤器 的 扫 摘 器 ， 亿 历 返回 的 行 和 收集 
数据 供 显 示 使 用 。 辅 助 方法 TsdbQuery.getScanner() 和 


TsdbQuery.findSpans() 分 别 与 UniqueId.get SuggestScanner() 和 
UniqueId.suggestO 基 本 相同 ， 所 以 它们 的 代码 清单 表 被 省 略 了 “。 但 是 ， 
下 面 看 看 Tsdb-Query.createAndSetFilter()， 详 见 代码 清单 7-11。 这 个 方 
法 实现 在 行 键 上 建立 正则 表达 式 过 滤器 这 个 有 趣 的 部 分 。 

代码 清单 7-11 TsdbQuery.createAndSetFilter() 方 法 的 Java 代 码 


void createAndSetFilter (final Scanner scanner) { 


final Short name width = tsdb.tag names.width(); 
final short value width = tsdb.tag values.width(); 


final Short tagsize = (short) (name width + value width); 
final StringBuilder buf = new StringBuilder! 分 配 足 够 长 的 字符 串 缓冲 
15 + ((13 + tagsize) 区 (StringBuffer ) 来 
* (tags.size() + (group bys.size())))); 保存 正则 表达 式 
buf .append("(?s)" 
i 先 跳 过 监控 指标 ID 
.append (tsdb.metrics.width() + Const.TIMESTAMP BYTES) 和 时 间 戳 
.append ("}"); 


final Iterator<byte[]> tags = this.tags.iterator(); 
final Iterator<byte[l]> group bys = this.group bys.iterator(); 


byte[] tag = tags.hasNext() ? tags.next() : null; 
byte [] group by = group bys.hasNext() ? group bys.next() : null; 
Se. 人 dl ize) NG i 
uf .append("(?:.1'") .append (tagsize) .append("};)* 下 dp A 
if (isTagNext (name width, tag, group by)) { 4 序 按 UID 合并 在 
addId (buf, tag); 一 起 
tag = tags.hasNext () ? tags.next() : null; isTagNext () 实际 
} else { 上 是 一 个 UID 比较 器 
adqdIdq(buf，group_by) ; 
final byte[] [] value ids = (group by values == null 


?: TIulli 


: group by values.get (group by) ) ; 


if (value ids == null) { 
buf.append(".{") .append(value width) .append('}'); 如 果 分 组 时 没有 考 
} else { < 虑 标签 值 
buf.append("(?:"),，; 
for (final byte[] value id : value ids) { 


buf .append ("\\Q"); 用 | 联结 标签 值 
addIid (buf, value id); 
buf .append('|'); 
buf.setCharAt (buf.length() - 1, ')'); 不 要 忘 了 结 
尾 的 | 
group by = group bys .hasNext () ? group bys.next() : null; 


} while (tag != group by); 

buf.append("(?:.{") .append (tagsize) .append ("})*$"); 

scanner.setKeyRegexp (buf .toString(), CHARSET),; A 
运用 过 滤 需 


} 


构建 字 节 级 别 的 正则 表达 式 并 不 像 听 起 来 那么 可 怕 。 使 用 这 种 过 
滤器 ，OpenTSDB 提 交 查 询 给 HBase。 集 群 中 托管 起 始 键 和 停止 链 之 间 
数据 的 每 个 节点 将 并 行 处 理 与 自己 有 关 的 扫描 部 分 ， 并 过 滤 相 关 记 
录 。 结 琳 行 个 送 回 到 tsd 供 图 形 洽 染 。 最 后 ， 你 在 男 一 痢 看 到 了 曲线 
图 。 


7.4 小 结 


前 面 我 们 说 HBase 十 一 种 灵活 的 、 可 扩展 的 、 另 于 访问 的 数据 库 。 
你 刚刚 在 实战 中 看 到 了 写 的 一 些 特点 。 有 灵活 的 数据 模型 文 桂 HBase 存 储 
各 种 数据 ， 时 间 序 列 数 据 只 是 一 种 例子 。HBase 是 为 可 扩展 能 力 而 设计 
的 ， 现 在 你 看 到 了 如 何 设计 一 个 应 用 系统 和 它 一 样 具 有 扩展 能 力 ， 也 
深入 理解 了 如 何 使 用 API。 我 们 希望 基于 HBase 搭 建 应 用 系统 的 想法 不 
再 令 人 县 惧 。 我 们 将 在 下 一 章 继续 研究 在 HBase 上 搭建 另 一 个 真实 的 应 
用 系统 。 


第 8 章 在 HBase 上 查询 地 理 信 息 系 统 L 


本 章 洱 盖 的 内 容 

四 让 HBase 适 应 为 多 维度 数据 建立 索引 的 挑战 

晶 在 模式 设计 里 应 用 领域 知识 

别人 在 真实 世界 里 使 用 定制 过 滤 右 

本 章 我 们 将 进入 一 个 使 用 HBase 的 新 领域 ， 即 地 理 信 息 系 统 

(Geographic Information Systems) 。GIS 是 一 个 有 趣 的 研究 领域 ， 

为 它 提 出 了 两 个 重要 的 挑战 : 大 规模 数据 处 理 的 延迟 和 空间 位 置 建 
模 。 我 们 将 以 GIS 作 为 透镜 来 演示 如 何 让 HBase 适 应 这 些 挑战 。 为 了 做 
到 这 些 ， 你 需要 充分 运用 一 些 特有 的 领域 知识 。 


8.1 运用 地 理 数 据 


地 理 系 统 经 常 作 为 在 线 交 互 用 户 体 验 的 基础 来 使 用 。 想 想 那 些 基 
于 位 置 的 服务 ， 如 Foursquare、Yelp 或 者 Urban Spoon。 这 些 服务 致力 
于 提供 全 球 数 百 万 地 理 位 置 相关 人 信息。 例如， 用 户 依 徘 这 些 应 用 服务 
在 一 个 不 熟悉 的 地 区 寻找 最 近 的 咖啡 店 。 他 们 肯定 不 希望 在 他 们 和 拿 
铁 咖 啡 之 间 还 需要 等 待 一 个 MapReduce 作 业 。 我 们 已 经 讨论 过 HBase 可 
以 作为 一 个 平台 提供 在 线 数 据 访问 ， 所 以 HBase 可 以 合理 应 对 第 一 个 挑 
战 。 如 同 在 上 一 章 中 看 到 的 ， 当 HBase 的 模式 被 设计 用 来 物理 存储 数据 
HH 时 ，HBase 可 以 提供 低 请 求 延 迟 。 这 顺便 把 你 市 到 第 二 个 挑战 ， 即 空间 
位 置 。 

GIS 数 据 里 的 空间 位 置 是 很 微妙 的 。 本 章 我 们 将 用 很 大 的 篇 幅 介绍 
一 个 叫做 geohash 的 算法 ， 这 是 该 问题 的 解决 办 法 。 其 思路 是 把 地 球 上 
一 个 地 方 的 所 有 信息 紧密 地 存储 在 一 起 。 这 样 的 话 ， 当 你 想 调查 那个 
位 置 时 ， 只 需要 发 出 尽 可 能 少 的 数据 请 求 。 你 也 会 希望 地 球 上 相 邻 位 
置 的 信息 在 硬盘 上 也 是 相 邻 存储 的 。 如 有 果 你 正在 访问 市 中 心 曼哈顿 的 

言 息 ， 很 可 能 你 也 想得到 切尔西 和 格林 威 治 村 的 信息 。 你 希望 把 这 些 


Ds 


数据 和 市 中 心 的 数据 存 得 更 近 一 些 ， 比 如 说 比 布鲁克 林 或 者 星 后 区 
( 离 曼 哈 顿 较 远 的 区 域 ) 的 数据 更 近 一 些 ， 你 可 能 会 获得 更 快 的 用 户 
体验 。 

空间 位 置 不 是 Hadoop 的 数据 位 置 

空间 位 置 (spatial locality) 的 想法 和 Hadoop 的 数据 位 置 (data 
locality) 概念 相似 但 不 相同 。 两 个 例子 中 ， 我 们 都 在 考虑 移动 数据 的 
行为 。GIS 中 空间 位 置 是 指 把 数据 按照 类 似 的 空 se tte 
方 。Hadoop 中 数据 位 置 是 指 在 集群 里 尽 可 能 在 物理 存放 数据 的 机 妖 
执行 数据 访问 和 计算 。 这 两 种 情况 都 是 天 于 如 何 把 使 用 0 
到 最 低 的 ， 但 是 相似 之 处 也 束 到 此 为 止 。 

地 理 数据 最 简单 的 形式 ， 也 就 是 地 球 上 的 一 个 点 ， 由 两 个 同等 相 
关 维度 决定 ， 即 经 度 (X 轴 ) 和 纬度 (Y 轴 ) 。 这 只 是 一 种 简化 。 许 多 
专业 GIS 系 统 ee 如 高 度 或 海拔 。 许 多 GIS 
应 用 也 基于 时 间 跟 踊 位 置 ， 这 意味 着 上 一 章 讨论 的 时 间 序 列 数 据 所 面 
临 的 所 有 挑战 。 当 设计 系统 提供 低 延 迟 数 据 访问 时 ， 上 述 两 种 维度 的 
数据 位 置 都 很 关键 。HBase 通 过 模式 设计 和 行 键 的 运用 确定 这 两 种 维度 
的 数据 位 置 。 有 序 的 行 键 能 够 直接 控制 数据 存储 的 位 置 。 

当 两 个 维度 (也 许 4 个 维度 ) 同等 相关 时 ， 如 何 保证 空间 数据 的 数 
据 位 置 呢 ? 例如 ， 专 门 在 经 度 上 建立 的 索引 表示 ， 纽 约 市 离 芝 加 哥 比 
离 西 雅 岁 更 近 。 但 是 如 图 8-1 所 示 ， 它 也 会 告诉 你 ， 纽 约 市 哥伦比亚 的 
波哥大 比 离 华盛顿 哥伦比亚 特区 更 近 。 仅 仅 考 虑 一 个 维度 不 足以 满足 
GIS 的 需要 。 

注意 本 半 人 研究 空间 概念 ， 这 只 能 通过 插图 进行 有 效 沟通 。 为 此 ， 
我 们 采用 了 基于 浏览 器 的 叫做 Leaflet 的 制图 库 来 建立 这 些 可 重复 精度 的 
插图 。GitHub 宣 称 本 章 项 目 使 用 了 95% 的 JavaScript。 图 中 的 地 图 切片 
来 自 于 Stamen Design 的 漂亮 的 Watercolor 切 片 集 ， 它 们 建立 在 完全 开放 
的 数据 上 。 可 以 在 http://leaflet.cloudmade.com 了解 更 多 关于 Leaflet 的 信 


ollly 


。Watercolor 的 信息 在 http://maps.stamen.com/ #watercolor 可 以 找 
到 。 压 层 数 据 来 目 于 OpenStreetMap， 这 是 一 个 类 似 于 Wikipedia 的 项 
目 ， 但 更 专注 于 地 理 数据 。 可 以 在 www.openstreetmap.org 了解 更 多 相关 
信息 。 

如 何 组 织 数 据 以 正确 理解 纽约 市 离 华 盛 顿 比 离 波 可 大 更 近 呢 ? 在 
本 章 将 使 用 专门 的 空间 索引 (spatial index) 来 应 对 这 个 挑战 。 你 将 使 
用 这 种 索引 作为 以 下 两 种 空间 查询 的 基础 。 第 一 种 查询 ，“k 个 最 近 的 
邻居 ”， 直 接 建 立 在 这 种 索引 上 。 第 二 种 查询 , “多 边 形 区 域内 查询 ”， 
通过 两 次 索引 实现 。 第 一 种 ， 单 单 基于 空间 索引 就 可 以 建立 。 第 二 种 
实现 使 用 定制 过 滤器 (custom filter) 的 形式 把 工作 尽 可 能 转移 到 服务 
句 病 。 这 样 会 最 大 限度 利用 HBase 集 群 来 执行 运算 工作 ， 并 且 把 返回 客 
户 端的 多 余数 据 降 到 最 低 。 同 时 ， 你 将 学 习 丰 富 的 新 行业 知识 ， 把 
HBase 打 造成 一 个 完全 胜任 的 GIS 机 器 。 人 们 常 说 ， 细 节 里 面 有 麻风 ， 
所 以 让 我 们 放大 地 图 的 比例 ， 从 国际 城市 则 的 距离 问题 转换 为 一 个 更 
加 本 地 性 的 问题 来 加 以 解决 。 
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图 8-1 在 GIS 里 ， 所 有 维度 重要 性 相同 。 仅 仅 在 经 度 ，X 轴 上 ， 建 
立 世界 城市 的 索引 ， 和 针对 某 些 查询 会 把 数据 进行 错误 的 排序 
本 对 中 使 用 的 代码 和 数据 可 以 在 我 们 的 GitHub 账号 里 获取 。 项 目 
位 于 https://github.com/hbaseinaction/gis 。 


8.2 设计 一 个 空间 索引 


假设 你 正在 访问 纽约 市 ， 需 要 互联 网 接 入 。“ 哪 里 有 最 近 的 wifi 热 
点 呢 ? "一 个 HBase 应 用 系统 如 何 帮 你 回答 这 个 问题 呢 ? 什么 样 的 模式 


设计 可 以 解决 这 个 问题 呢 ? 如 何 用 一 种 可 扩展 的 方式 解决 这 个 问题 
呢 ? 

你 需要 快速 访问 到 数据 的 相关 子 集 。 为 了 做 到 这 一 点 ， 让 我 们 从 
两 个 简单 的 、 有 联系 的 目标 开始 。 

1. 你 希望 在 空间 里 彼此 接近 的 点 在 便 副 上 的 存储 位 置 点 也 是 彼此 
接近 的 。 

2. 你 希望 响应 查询 时 返回 尽 可 能 少 的 点 。 

如 采 可 以 实现 这 两 个 目标 ， 你 就 成 功 建立 了 一 个 基于 空间 数据 集 
的 反应 高 度 灵敏 的 在 线 应 用 系统 。HBase 提 供给 你 完成 这 两 个 目标 的 主 
要 工具 是 行 键 。 在 前 几 章 你 看 到 了 如 何在 一 个 复合 行 键 里 为 多 个 属性 
建立 索引 。 根 据 华 盛 顿 对 比 波哥大 的 例子 ， 我 们 有 一 种 直觉 ， 前 几 章 
的 做 法 不 会 适合 第 一 个 设计 目标 。 先 试 试 没有 坏处 ， 尤 其 是 如 果 你 同 
时 还 能 学 点 东西 。 因 为 前 几 间 的 做 法 实现 很 容易 ， 所 以 在 壬 试 更 复杂 
的 复合 行 键 之 前 让 我 们 先 评估 一 下 基本 的 复合 行 键 。 

让 我 们 先 来 看 看 数据 。 纽 约 市 有 个 开放 数据 项 目 ， 公 布 了 许多 数 
据 集 自 。 其 中 之 一 是 所 有 城市 wifi 热 点 的 列表 中 。 我 们 不 要 求 你 熟悉 
SI 全， 所 以 我 们 做 了 一 点 席 处 理 。 下面 是 那些 数据 的 例子 : 


ID NAME 
1 -73.96974759 40.75890919 441 Fedex Kinko's 
2 -73.96993203 40.75815170 442 Fedex Kinko's 
3 -73.96873588 40.76107453 463 Smilers 707 
4 -73.96880474 40.76048717 472 Juan Valdez NYC 
5 -73.96974993 40.76170883 219 Startegy Atrium and Cafe 
6 -73.96978387 40.75850573 388 Barnes & Noble 
7 -73.96746533 40.76089302 525 McDonalds 
8 -73.96910155 40.75873061 564 Public Telephone 
9 -73.97000655 40.76098703 593 Starbucks 


人 到 | 


数据 已 经 被 处 理 成 一 个 由 制 表 符 分 阳 的 文本 文件 。 第 一 行 是 列 
和 名。X 和 Y 列 分 别 是 经 度 和 纬度 值 。 每 条 记录 有 ID、NAME 和 许多 其 他 


GIS 数 据 的 一 个 好 处 是 非常 适合 图 片 处 理 ! 不 像 其 他 种 类 的 数据 ， 
从 GIS 数 据 建立 一 个 有 意义 的 视觉 化 展示 不 需要 聚合 一 一 只 需要 把 数据 
点 投射 到 地 图 上 融 可 以 看 到 你 有 什么 了 。 示 例 数据 如 岁 8-2 所 示 。 

根据 前 面 概 括 的 目标 ， 现 在 你 为 模式 设计 进行 一 次 相当 有 趣 的 wifi 
热点 检查 。 按 照 目标 1， 在 地 图 上 338 点 接近 441 点 ， 所 以 它们 的 记录 在 
数据 库 里 应 该 是 彼此 接近 的 。 按 照 目 标 2， 如 采 你 想 获取 这 样 两 个 点 ， 
你 也 不 应 该 取 219 点 。 

现在 你 有 了 目标 ， 也 有 了 数据 ， 是 到 考虑 模式 的 时 候 了 。 如 同 你 
在 第 4 章 所 学 的 ， 行 键 的 设计 是 HBase 模 式 中 你 需要 做 的 唯一 最 重要 的 
事情 ， 所 以 让 我 们 从 这 里 开始 。 
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图 8-2 寻找 wifi。 我 们 希望 看 到 地 理 数 据 ， 所 以 把 它们 投射 到 一 个 
地 图 上 。 这 里 是 全 部 数据 集 的 一 个 采样 一 一 在 市 中 心 曼哈顿 提供 wifi 连 
接 的 几 个 地 方 

前 面 我 们 讲 过 把 X 轴 和 Y 轴 值 串 联 起 来 做 行 键 不 是 一 个 有 效 的 模 
式 。 我 们 引用 了 华盛顿 对 比 波哥大 的 例子 作为 证 据 。 让 我 们 看 看 为 什 
么 。 先 按 经 度 再 按 维度 把 示例 数据 排序 ， 然 后 把 点 连接 起 来 。 结 果 如 
图 8-3 所 示 。 当 我 们 按 这 种 方式 存储 数据 ， 把 扫描 返回 结果 从 1 到 10 排 
序 。 请 特别 注意 第 6 步 和 第 7 步 之 间 的 距离 以 及 第 8 步 和 第 9 步 之 间 的 距 


离 。 因 为 先 按 经 度 后 按 纬度 ， 这 种 排序 导致 了 很 多 南北 位 置 复 之 间 的 
路 跃 。 

这 种 模式 设计 貌似 满足 目标 1， 但 可 能 只 是 因为 示例 数据 少 。 关 于 
目标 2 则 表现 很 糟糕 。 每 次 从 北方 位 置 复 跳 到 南方 位 置 复 束 意 味 着 你 读 
取 了 不 需要 的 数据 。 还 记得 图 8-1 所 示 的 波哥大 对 比 华盛顿 的 例子 吗 ? 
那 正 是 在 这 种 模式 设计 里 遇 到 的 问题 。 空 间 里 彼此 接近 的 点 在 HBase 里 
不 一 定 彼 此 接近 。 当 你 把 这 些 转换 成 一 次 行 键 扫描 时 ， 你 不 得 不 取出 
期 望 的 经 度 范 围 里 每 一 个 纬度 的 点 。 当 然 你 可 以 在 设计 里 用 临时 办 法 
弥补 这 个 缺陷 。 你 大 概 会 创建 一 个 纬度 过 滤器 ， 作 为 
RegexStringComparator 附加 到 行 过 滤器 (RowFilter) 来 实现 这 个 补救 
措施 。 这 种 方式 至 少 可 以 避免 把 多 余 的 数据 返回 给 客户 器。 但 这 不 是 
理想 的 办 法 ， 因 为 为 了 执行 过 滤器 逻辑 ， 过 滤器 还 是 需要 先 从 存储 里 
读 出 数据 。 如 采 你 能 避 开 无 天 的 数据 ， 根 本 不 碰 那 些 数 据 是 更 好 的 选 


择 。 
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图 8-3 一 种 自然 的 空间 模式 设计 的 方法 ;串联 两 个 坐标 轴 的 值 。 这 


种 模式 不 适合 把 空间 位 置 映射 到 数据 记录 位 置 的 第 一 个 目标 

这 种 模式 设计 在 行 键 里 把 一 个 维度 放 在 另 一 个 维度 前 面 ， 这 暗示 
了 一 种 在 不 同 维度 间 有 次 序 的 关系 ， 这 是 不 应 该 存在 的 。 你 可 以 有 更 
好 的 选择 。 为 此 ， 你 需要 学 习 一 种 GIS 社 区 想 出 来 的 解决 这 种 问题 的 技 
巧 一 一 geohash (地 理 散 列 ) 。 

8.2.2 介绍 geohash 

如 前 面 例子 所 示 ， 经 度 和 纬度 在 定义 一 个 点 的 位 置 时 是 同等 重要 

的 。 为 了 使 用 它们 作为 空间 索引 的 基础 ， 你 需要 一 种 结合 它们 的 算 


法 。 这 种 算法 会 基于 这 两 个 维度 生成 一 个 值 。 这 样 ， 这 种 算法 生成 的 
不 同 值 将 会 用 一 种 平等 考虑 两 个 维度 的 方式 来 建立 彼此 关系 。geohash 
正 是 这 样 做 的 。 

geohash 是 一 种 把 几 个 值 转换 成 单个 值 的 函数 。 为 了 让 它 工 作 ， 那 
些 值 中 的 每 一 个 必须 来 自 于 一 个 有 固定 范围 的 维度 。 本 例 中 ， 你 打算 
把 经 度 和 纬度 转换 成 单个 值 。 经 度 维度 限定 在 [-180.0, 180.0] 范 围 ， 而 
纬度 维度 限定 在 [-90.0, 90.0] 范 围 。 还 有 很 多 办 法 可 以 把 多 维度 减少 到 
单个 维度 ， 但 因为 它 的 输出 需要 保持 空间 位 置 ， 所 以 我 们 这 里 使 用 
geohash ° 

geohash 并 不 是 一 种 完美 无 缺 的 输入 数据 编码 方式 。 对 于 发 烧 友 来 
说 ， 这 个 道理 有 点 儿 像 把 原始 声音 记录 压缩 后 的 MP3。 输 入 数据 大 部 
分 都 在 ， 但 也 只 是 大 部 分 。 和 MP3 一 样 ， 计 算 geohash 时 必须 指定 精 
度 。 最 多 能 够 使 用 12 个 geohash 字 符 来 定义 精度 ， 因 为 这 是 能 在 一 个 8 字 
节 的 Long 数 据 类 型 里 容纳 的 并 且 仍 然 能 够 表示 一 个 有 意义 的 字符 串 的 
最 高 精度 〈 注 : 1 个 geohash 字 符 占 用 5 个 位 ) 。 通 过 截取 散 列 值 尾 部 的 
字符 ， 你 可 以 得 到 一 个 低 精 度 的 geohash 和 相应 低 精度 的 地 图 。 在 全 精 
度 代表 一 个 点 的 地 方 ， 部 分 精度 时 在 地 图 上 代表 一 个 区 域 ， 实 际 上 是 
空间 里 一 个 方 框 界定 的 区 域 。 图 8-4 解 释 了 截取 geohash 尾 部 字符 降低 精 
度 的 表现 。 
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图 8-4 截取 geohash 尾 部 字符 。 通 过 从 geohash 尾 部 减少 字符 ， 可 以 
降低 hash 代表 的 空间 精度 。 一 个 字符 可 产生 很 大 变化 

对 于 一 个 指定 的 geohash 前 级 ， 在 对 应 的 那个 空间 里 的 所 有 点 都 使 
用 相同 的 前 级 。 如 有 果 你 能 让 查询 落 在 一 个 geohash 前 级 的 市 边界 方 框 
里 ， 所 有 匹配 的 点 将 共享 一 个 相同 的 前 缀 。 这 意味 着 你 可 以 在 行 键 上 
使 用 HBase 前 绥 扫 描 来 得 到 一 组 与 那个 得 询 相关 的 点 。 这 样 丈 实现 了 
目标 1。 但 是 如 图 8-4 所 示 ， 如 采 你 选择 过 低 的 精度 ， 会 得 到 比 需 要 的 多 
得 多 的 数据 。 这 违 育 了 目标 2。 你 应 该 在 边界 附近 工作 ， 我 们 稍 后 介绍 
这 些 。 现 在 ， 让 我 们 看 一 些 真实 的 位 置 点 。 


思考 这 3 个 位 置 ， 即 拉 瓜 迪 亚 机 场 (40.77。N, 73.87。 W) 、 上 肯尼迪 
国际 机 场 (40.64? N, 73.78。 W) 和 中 央 公 园 〈40.78。N, 73.97° W) 
它们 的 坐标 分 别 geohash 处 理 为 值 dr5rzjcw2nze、dr5xln711mhd 和 
dr5ruzb8wnfr。 你 可 以 在 图 8-5 看 到 地 图 上 的 这 些 点 ， 并 且 看 到 中 央 公园 
离 拉 瓜 迪 亚 机 场 比 离 肯尼迪 国际 机 场 近 。 按 绝对 距离 看 ， 中 央 公园 离 
拉 瓜 迪 亚 机 场 约 5 贡 里， 而 中 央 公园 离 肯尼迪 机 场 约 14 英 里 。 
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图 8-5 相对 距离 。 看 地 图 时 ， 可 以 很 容易 看 到 中 央 公 园 与 肯尼迪 国 


际 机 场 的 距离 比 中 央 公 园 与 拉 瓜 迪 亚 机 场 的 距离 要 远 得 多 。 这 正 是 你 
想 使 用 散 列 算法 重 现 的 关系 


因为 中 央 公 园 离 拉 瓜 迪 亚 彼此 空间 距离 更 近 ， 你 可 以 预期 它们 比 
中 央 公园 和 肯尼迪 机 场 共 持 哆 多 的 相同 前 缀 字符 。 事实 来 然 如 此 : 


$ sort <(echo "dr5rzjcw2nze"; echo "dr5xln7llmhd"; echo "dr5ruzb8wnfr" 


dr5ruzb8wnfr 


r5rzjcw2nze 中 央 公 园 
ed < 一 拉 瓜 迪 亚 机 场 
肯尼迪 国际 机 场 

现在 你 理解 了 geohash 的 工作 原理 ， 我 们 将 演示 给 你 如 何 计算 生成 
一 个 值 。 别 担心 ， 你 不 必 散 列 处 理 手 上 所 有 的 点 。 为 了 高 效 运用 
HBase， 理 解 其 工作 原理 是 有 帮助 的 。 使 用 geohash 也 类 似 ， 理 解 其 构 
造 原 理 将 有 助 于 你 理解 边界 问题 。 


8.2.3 理解 geohash 


你 已 经 看 到 的 geohash 值 都 被 显示 为 Base32 编 码 字母 表 [外 的 字符 
串 。 事 实 上 ，geohash 的 位 序列 按照 经 度 和 纬度 精度 递增 的 顺序 依次 排 
列 。 

例如 ，40.78。N 是 纬度 。 它 落 在 [-90.0, 90.0] 范 围 的 上 半 区 四， 所 
以 它 的 第 一 个 geohash 位 是 1。 因 为 40.78 落 在 [0.0, 90.0] 范 围 的 下 半 
区 ， 写 的 第 二 位 是 0。 第 三 个 苑 围 是 [0.0, 45.0]， 落 在 上 半 区 ， 所 以 第 
二 位 是 1 

通过 对 半 切 分 值 的 区 间 和 确定 落 在 哪 半 区 ， 计 算出 每 个 维度 对 应 
的 数据 位 。 如 有 果 数 据点 大 于 或 等 于 中 点 ， 用 1 表示 ; 否则 ， 用 0 表示 。 
这 个 过 程 重复 进行 ， 一 次 一 次 对 半 切 分 范围 ， 然 后 根据 目标 点 的 位 置 
选择 1 或 0。 在 经 度 和 纬度 值 上 都 执行 这 种 二 进 制 分 区 方式 。 最 后 通过 
编码 把 这 些 位 编排 在 一 起 生成 散 列 值 ， 而 不 是 单独 使 用 每 个 维度 的 位 
序列 。 这 种 空间 分 区 方式 是 geohash 有 空间 位 置 属性 的 原因 。 正 是 每 个 
维度 的 位 的 编排 方式 支持 了 前 级 匹配 精度 查询 的 技巧 。 


) 


现在 理解 了 每 个 维度 是 如 何 编码 的 ， 让 我 们 计算 一 个 完整 值 。 这 
种 区 间 二 等 分 过 程 和 位 选择 一 直 重 复 ， 直 到 达到 预期 的 精度 。 经 度 和 
纬度 两 者 一 起 计算 出 一 个 位 序列 ， 它 们 的 位 是 相互 交织 的 ， 先 是 经 
度 ， 再 是 纬度 ， 直 到 目标 精度 。 图 8-6 解 释 了 这 个 过 程 。 一 旦 位 序列 计 
算出 来 ， 它 会 被 编码 生成 最 后 的 散 列 值 。 

现在 你 理解 了 geohash 对 你 有 用 的 原因 以 及 它 的 工作 原理 ， 让 我 们 
把 它 用 到 你 的 行 侵 里 。 
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40.78 N.73.97 W 的 
6 位 精度 的 geohash 值 


图 8-6 构造 一 个 geohash。 来 自 于 经 度 和 纬度 的 前 3 个 位 交织 生成 一 
个 6 位 精度 的 geohash。 我 们 前 面 讨 论 的 示例 数据 执行 该 算法 输出 到 7 个 
Base32 字 符 ， 即 35 位 精度 


因为 geohash 计 算 开 销 不 大 ， 对 于 行 键 来 说 geohash 是 个 极 佳 的 选 
择 ， 行 键 的 前 级 帮助 你 寻找 最 近 的 邻居 。 让 我 们 把 geohash 应 用 到 示例 


数据 ， 按 照 geohash 排 序 ， 看 看 在 前 级 上 如 何 表 现 。 我 们 使 用 一 个 库 名 
计算 出 每 个 点 的 geohash， 添 加 一 列 到 原来 的 数据 里 。 示 例 里 的 所 有 数 
据 相 对 比较 接近 ， 所 以 你 可 以 预 } 期 在 这 XX 导 太 上 好多 前 级 古 重合 的 : 


GEOHASH NAME 
dr5rugb9rwjj] -73.96993203 40.75815170 442 Fedex Kinko's 
dr5rugbge05m -73.96978387 40.75850573 388 Barnes & Noble 
dr5rugbvggqe -73.96974759 40.75890919 441 Fedex Kinko's 
dr5rugckg406 -73.96910155 40.75873061 564 Public Telephone 
dr5ruulxlct8 -73.96880474 40.76048717 472 Juan Valdez NYC 
dr5ruu29vytq -73.97000655 40.76098703 593 Starbucks 
dr5ruu2y5vkb -73.96974993 40.76170883 219 Startegy Atrium and Cafe 
dr5ruu3d7x0b -73.96873588 40.76107453 463 Smilers 707 
dr5ruu693jhm -73.96746533 40.76089302 525 McDonalds 


的 确 如 此 ， 前 绥 共 有 5 个 相同 字符 。 还 不 错 ! 这 意味 着 你 使 用 一 个 
简单 的 范围 扫描 就 可 以 进行 距离 查询 和 满足 目标 1。 为 满足 上 下 文 需 
要 ， 图 8-7 把 这 些 数 据 放 到 了 地 图 上 。 
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图 8-7 观察 实战 中 前 绥 的 匹配 情况 。 如 采 目 标 搜 索 在 这 个 区 域 ， 一 
个 简单 的 行 链 扫 描 就 可 以 得 到 你 需要 的 数据 。 不 仅 如 此 ， 返 回 结 果 的 
顺序 比 图 8-3 所 示 的 顺序 更 合理 

这 比 复合 行 键 方式 好 得 多 ， 但 也 决 不 是 完美 的 。 所 有 这 些 点 密集 
放 在 一 起 ,彼此 相差 几 个 街区 而 已 。 但 为 什么 只 匹配 了 12 个 字符 中 的 5 
个 ? 我 们 希望 空间 接近 的 数据 能 够 存储 得 更 近 一 些 。 回 想 图 8-4， 通 过 5 
个 、6 个 、7 个 字符 的 前 弘 扫 描 徐 盖 的 空间 区 域 在 大 小 上 的 区 别 是 显著 
的 一 一 远 超 过 儿 个 街区 。 如 于 你 能 做 两 次 6 个 字符 前 缀 的 扫描 而 不 是 一 
次 5 个 字符 前 绥 的 扫描 ， 那 么 你 丈 朝 着 目标 2 前 进 了 一 大 步 。 或 者 ， 做 5 


次 或 6 次 7 个 字符 前 级 的 扫描 会 怎么 样 呢 ? 这 次 市 着 更 多 的 视角 ， 让 我 
们 看 看 图 8-8。6 个 字符 前 维和 7 个 子 符 前 级 的 geohash 方 框 是 重合 的 。 

和 目标 查询 区 域 相 比 ，6 个 字符 前 缀 的 匹配 区 域 太 大 了 。 更 糟 料 的 
症 ， 这 次 查询 需要 执行 两 次 那些 区 域 太 大 的 6 个 字符 前 缀 的 扫描 。 从 上 
下 文 可 以 看 出 ，5 个 字符 相同 前 级 包含 的 数据 更 是 远 超过 你 的 需要 。 依 
赖 前 缀 匹配 的 做 法 导致 扫 接 了 大 量 多 余 的 数据 。 当 然 ， 这 是 一 种 取 
低 。 如 果 你 的 数据 在 这 个 精度 水 平 不 算 稠密 ， 扫 描 执 行 得 少 ， 那 么 这 
种 耗 时 长 点 儿 的 扫 摘 也 不 是 多 大 的 问题 。 如 采 扫 摘 不 返回 多 余数 据 ， 
你 就 可 以 把 远程 过 程 调用 (RPC) 压力 降 到 最 低 。 如 果 你 的 数据 是 笛 
密 的 ， 扫 摘 运 行 次 数 多 ， 那 么 耗 时 较 短 的 扫 拉 可 以 减少 网 络 上 传输 的 
多 余 位 置 点 的 数量 。 此 外 ， 现 在 还 有 一 件 事情 正在 变 得 更 为 有 利 ， 那 
就 是 并 行 计算 。 虽 然 每 个 短 扫描 可 以 在 自己 的 CPU 核 上 并 行 执 行 ， 但 
征 整 个 查询 的 速度 仍然 由 最 慢 的 那个 扫描 决定 。 
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图 8-8 重 倒 的 geohash 方 框 上 前 组 匹配 情况 。 使 用 6 个 字符 前 级 ， 玛 
询 结果 里 有 很 多 多 余 的 、 不 需要 的 区 域 。 一 种 理想 的 做 法 是 只 使 用 7 个 
字符 前 级 ， 从 而 把 网 络 上 传送 的 多 余数 据 量 降 到 最 低 
让 我 们 卷 动 地 图 到 曼哈顿 的 另 一 个 部 分 ， 离 我 们 已 经 研究 的 地 方 
并 不 远 。 请 看 图 8-9。 注 意 中 心 方 框 的 geohash 有 6 个 前 级 字符 
(dr5ruz) ， 与 东 向 、 东 南 向 和 南 向 的 方 框 相同 。 但 是 只 有 5 个 字符 
(dr5ru) 和 西向 和 西南 向 方 框 相同 。 如 果 5 个 相同 字符 前 级 是 糟糕 的 ， 
那么 北边 整 行 匹 配 的 前 缀 更 是 糟糕 ， 只 有 2 个 字符 (dr) 相同 ! 这 不 会 
每 次 都 发 生 ， 但 是 的 确 以 惊人 的 高 频率 发 生 。 作 为 一 个 反面 例子 ， 东 


字符 前 组 站 


南 向 方 框 (dr5ruz9) 的 全 部 8 个 邻居 都 有 6 个 相同 字符 前 


| 
] 
| 
dr5ruz8 | 
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图 8-9 可 祝 化 geohash 边 界 情况 。 这 种 编码 不 是 完美 无 缺 的 。 这 里 有 
一 个 例子 。 想 象 一 下 ， 如 果 最 近邻 居 搜 索 落 在 了 插图 中 篆 头 指向 的 地 

方 ， 很 可 能 你 会 发 现 这 个 方 框 的 邻居 只 有 两 个 相同 字符 前 级 

geohash 是 有 效 的 ， 但 古 你 不 能 只 是 使 用 一 次 简单 的 目 然 前 级 匹 
配 。 根 据 这 些 插图 ， 看 起 来 这 种 数据 的 优化 处 理 方式 古 扫 接 中 心 方 框 
和 它 的 8 个 邻居 。 在 把 不 必要 的 网 络 IO 数 据 量 降 到 最 低 的 同时 ， 这 种 方 
陈 将 确保 正确 的 结 末 。 痒 运 的 征 ， 针 对 那些 邻居 的 计算 操作 只 是 简单 
的 位 操作 。 解 释 那 种 操作 的 细 市 超出 了 我 们 的 兴趣 范围 ， 所 以 我 们 相 
信 geohash 库 能 够 提供 那 种 特性 。 

不 是 所 有 线性 化 技术 都 可 以 用 来 创建 各 维度 平等 的 geohash 


geohash 古 在 近似 模拟 数据 空间 。 也 避 ® 是 说 ， 它 古 一 个 基于 多 维度 
输入 值 计算 单 维度 输出 值 的 函数 。 本 例 中 ， 输 入 的 维度 只 有 2， 但 是 你 
可 以 想象 有 更 多 维度 时 如 何 工 作 。 这 是 一 种 线性 化 的 方式 ，geohash 不 
征 唯 一 的 一 个 。 其 他 技术 ， 诸 如 Z 轴 次 序曲 线 和 硕 尔 伯 特 曲线 等 ， 也 是 
利 见 的 。 它 们 都 属于 至 间 填 充 曲线 类 别 : 这 种 曲线 定义 为 单一 的 、 不 
中 断 的 、 接 触 空间 所 有 分 区 的 线条 。 这 些 技 术 无 法 在 一 维 线条 上 完美 
地 建 模 二 维 平 面 并 且 在 那些 空间 维持 对 象 的 相关 特征 。 因 为 geohash 的 
赣 情况 比 其 他 技术 少 ， 所 以 我 们 移 择 了 geohash 。 


8.3 实现 最 近邻 居 查 询 


现在 该 通过 执行 查询 来 实践 新 得 到 的 geohash 知 识 了 。 记 住 你 要 回 
答 的 问题 “5 个 最 近 的 wifi 热 后 在 哪里 ? ”这 听 起 来 像 古 有 3 个 参数 的 函 
数 : 目标 位 置 的 经 度 和 纬度 ， 以 及 最 大 返回 结果 数 ， 如 同 下 面 这 一 行 
里 的 东西 : 


public Collection<QueryMatch> queryKNN (double lat, double lon, int n) 


} 


QueryMatch 是 一 个 用 来 获取 碍 询 结果 的 数据 类 。 涉 及 如 下 步骤 。 
(1) 构造 目标 GeoHash 。 
(2) 电 历 它 和 它 的 8 个 邻居 来 寻找 候选 结果 。 每 次 扫描 的 结果 按 
照 离 目标 点 的 距离 排序 并 且 限 定 为 只 保留 n 个 距离 最 近 的 结果 。 
(3) 对 9 次 扫描 的 结果 进行 排序 并 限定 返回 数量 ， 计 算出 最 后 n 个 
结果 返回 给 调用 者 。 
你 将 在 两 个 钞 数 里 实现 这 些 步 台 ， 一 个 用 来 处 理 HBase 扫 摘 ， 男 一 
个 处 理 geohash 和 聚合 。 第 一 个 函数 的 伪 代 码 如 下 : 


takeN (origin, prefix, n): 


table = Hbasetablel'wif1") | 从 wifi 表 里 读 出 前 弘 匹 配 的 记录 
scanner = table.scan (prefix) + 
results = [] 


for result in scanner: 
results.add (result) 

comp = distance from(origin) 

results = sort(comp, results) 

return limit(n, results) Eq 


| 按照 离 origin 的 距离 对 results 进行 排序 


返回 距离 最 近 的 n 个 结果 


这 里 没有 什么 特殊 的 东西 ， 你 像 前 面 使 用 的 那样 访问 HBase。 你 不 
需要 保留 每 次 扫描 的 全 部 查询 结果 ， 只 保留 距离 最 近 的 n 个 。 这 样 减少 
了 得 询 过 程 的 内 存 使 用 ， 尤 其 是 在 你 被 迫使 用 比 预期 更 短 的 前 缀 时 。 

主要 查询 功能 建立 在 takeN 辅 助 函 数 上 。 下 面 是 它 的 伪 代 码 : 


queryKNN (lat, lon, n): 


origin =' [lat lonl | geohash 生 
target = geohash(lat, lon) 了 了 一 成 target 使 用 target 散 列 对 象 调 
results = [] 女 列 | 用 takeN 函数 ……. 

| 数 
results.addAll (takeN (origin, target, =) 散 I 对象 
for neighbor in target.neighbors: | 所 有 邻居 同样 处 理 


results.addAll (takeN (origin, neighbor, n) 
comp = distance from(origin) 
results = sort(comp, results) | 
return limit(n, results) 


调用 和 前 面 一 样 的 
本 返回 最 近 的 n distance 函数 


| 个 结果 

queryKNN 函 数 先 从 查询 目标 生成 geohash， 然 后 计算 出 需要 扫描 的 
9 个 前 级 ， 最 后 合并 结果 。 如 你 在 图 8-9 中 所 看 到 的 ， 全 部 9 个 前 缀 都 应 
该 被 扫 摘 以 保证 正确 的 结果 。 在 takeN 中 用 来 限制 内 存 占用 的 技术 ， 
在 这 里 再 次 被 用 来 减少 最 终 返 回 的 结果 。 如 果 你 愿意 ， 这 也 是 可 以 使 
用 并 行 代码 的 地 方 。 

现在 让 我 们 把 伪 代 码 转换 成 Java 实 现 。Google 的 Guava 库 日 提供 了 
一 个 方便 的 类 ， 我 们 可 以 通过 MinMaxPriorityQueue 来 管理 有 序 的 、 大 
小 有 限 的 结果 数据 桶 (bucket) 。 它 需要 接收 一 个 定制 的 Comparator 来 
维持 次 序 和 实施 回收 策略 ， 你 将 需要 为 QueryMatch 类 构建 一 个 
Comparator。 这 个 Comparator 的 基础 是 离 查询 目标 原点 的 距离 。 


java.awt.geom.Point2D 类 提供 给 你 一 个 简单 的 距离 函数 ， 这 个 函数 足以 
满足 你 的 需要 [了 0 。 让 我 们 从 辅助 类 QueryMatch 和 DistanceComparator 
开 娟 s 


public class QueryMatch { 
public String id; ey 
口 1 
public String hash; 只 有 数据 
public double lon, lat; 
public double distance = Double.NaN; 


public QueryMatch(String id, String hash, double lon, double lat) { 
thiesatd =: dd; 
this.hash = hash; 
this.1lon 
this.1lat 
} 
} 


public class DistanceComparator implements Comparator<QueryMatch> { 
Point2D origin; 


public DistanceComparator (double lon, double lat) { 
this.origin = new Point2D.Double(lon, lat); 


} 


public int compare (QueryMatch ol1, QueryMatch o2) { 
if (Double.isNaN(ol.distance)) { 
ol.distance = origin.distance(ol.lon, ol.lat); 


} 


if (Double.isNaN(o2.distance)) { 

o2 .distance = origin.distance(o2.1lon, o2.1at); 调用 Point2D 
} 的 距离 方法 
return Double.compare (ol.dqistance，o2.distance) ; 


} 
} 


修改 Comparator 里 的 对 象 不 是 常规 做 法 

通常 你 不 会 用 代码 例子 里 的 方式 写 Comparator 。 TE 
么 做 ! 这 里 我 们 这 样 做 是 为 了 更 容易 检查 文本 里 的 结果 。 这 只 是 解释 
这 里 发 生 了 什么 。 真 的 ， 请 不 要 这 样 做 ! 

为 了 得 到 排 好 序 的 结果 ， 现 在 需要 一 个 Java 版 本 的 takeN， 这 个 方 
法 执行 HBase 扫 描 。 每 个 前 级 需要 排序 和 限制 返回 的 空间 结果 集合 ， 所 
以 在 prefix 和 n 之 外 还 需要 Comparator。 这 种 做 法 不 用 像 伪 代码 那样 接收 
原点 作为 输入 。 


Collection<QueryMatch> takeN (Comparator<QueryMatch> comp, 
String prefix, 
int n) throws IOException { 
Collection<QueryMatch> candidates 


= MinMaxPriorityQueue.orderedBy (comp) 限制 只 返回 n 个 距离 最 近 
.maximumSize (n) 的 结果 ， 并 按 距离 排序 
.Create (); 


Scan scan = new Scan (Prefix.getBytes()) :; 
scan.setFilter(new PrefixFilter (prefix.getBytes())).; 


scan.addFamily (FAMILY).; 把 扫描 缓存 设置 为 大 于 1 的 值 ， 
scan.setMaxVersions (1) ; 可 以 极 大 减少 RPC 调用 
scan.setCaching(50); > 


HTableInterface table = pool.getTable ("wifi")., 


ResultScanner scanner = table.getScanner (Scan) ; 从 wifi 表 读 取 前 绥 
for (Result r : scanner) { 匹配 的 记录 
String hash = new String(z.getRow() ) ; 
String id = new String(r.getValue (FAMILY, ID)); 
double lon Bytes.toDouble(r.getValue (FAMILY, X COL)); 
double lat Bytes.toDouble(r.getValue (FAMILY, Y COL)); 
candidates.add (new QueryMatch(id, hash, lon, lat)); 


} | 收集 候选 位 时 


table.close(); 
return candidates; 


这 里 使 用 第 2 章 中 学 过 的 相同 的 表 扫 描 。 需 要 指出 的 新 东西 是 ， 
这 里 调用 了 Scan.setCaching() 方 法 。 该 方法 调用 把 扫 摘 器 每 次 RPC 调 用 
时 返回 的 记录 数 设 置 为 50 一 一 可 以 是 任意 数 ， 取 决 于 需要 扫描 的 记录 
数 和 每 条 记录 大 小 。 对 于 示例 数据 集 ， 它 的 记录 数 很 少 ， 其 思路 是 限 
制 通过 geohash 扫 描 的 记录 数 。 在 这 个 精度 上 ，50 应 该 远 超 过 你 期 望 的 
一 次 扫描 拉 出 的 数据 的 数量 。 你 需要 调试 这 个 数字 来 为 自己 的 使 用 场 
景 决定 一 个 最 优 的 设置 。HBase 用 户 邮 件 列表 上 出 | 有 一 个 有 用 的 帖子 
HL ， 那 里 详细 描述 了 围绕 这 个 设置 你 需要 平衡 的 东西 。 因 为 什么 数 都 
可 能 比 它 的 默认 值 1 要 好 ， 一 定 要 调试 这 个 设置 。 

最 后 ， 把 前 面 定义 的 代码 组 合 起 来 。 从 目标 查询 点 计算 GeoHash,， 
并 且 基 于 这 个 前 缀 调用 takeN， 周 围 的 8 个 邻居 也 都 如 此 操作 。 然 后 使 


用 MinMaxPriorityQueue 类 限制 takeN 返回 的 结果 数 ， 全 部 9 组 结果 聚合 
在 一 起 ， 同 样 使 用 MinMaxPriority Queue 类 限制 最 后 的 结果 数 。 


public Collection<QueryMatch> query (double lat, double lon, int n) 
throws IOException { 
DistanceComparator comp = new DistanceComparator(lon, lat); 
Collection<QueryMatch> ret 
= MinMaxPriorityQueue.orderedBy (comp) 


.maximumSize (n) geohash 生成 
.create (); target 散 列 对 象 
GeoHash target = GeoHash.withCharacterPrecision(lat, lon, 7); < 一 
ret .addAll (takeN (comp, target .toBase32 有 + 使 用 target 
for (GeoHash h : target.getAdjacent ()) { 散 列 对 象 调 
ret.addaAll (takeN (comp, h.toBase32(), n)); |…… 所 有 邻 和 
} 居 同 样 处 理 用 takeN 耳 
数 


return ret,; 


创建 Comparator 的 实例 很 简单 ， 创 建 队 列 的 实例 很 简单 ，8 个 
geohash 邻居 的 for 循 环 也 很 简单 。 这 里 唯一 特殊 的 事情 是 GeoHash 的 构 
造 。 这 个 库 人 允许 你 指定 字符 精度 。 本 章 前 面 ， 你 想 对 空间 里 的 一 个 点 
做 散 列 处 理 ， 所 以 你 使 用 了 能 达到 的 最 大 精度 一 -12 个 字符 长 。 这 里 
的 情况 有 些 不 同 。 你 不 是 算 一 个 点 的 散 列 值 ， 而 是 一 个 有 边界 的 方 
框 。 如 果 选 择 的 精度 太 高 ， 你 不 能 查询 足够 大 的 区 域 来 找到 n 个 匹配 
值 ， 特 别 是 当 n 比 较 大 时 。 如 果 选 择 的 精度 太 低 ， 你 的 扫描 将 扫 过 在 数 
量 级 上 超过 需要 的 数据 。 对 于 这 个 数据 集 和 这 个 查询 ， 使 用 7 个 字符 的 
精度 是 合理 的 。 不 同 的 数据 和 不 同 的 n 值 会 需要 不 同 的 精度 。 找 到 这 种 
平衡 可 能 是 很 微妙 的 ， 所 以 最 好 的 建议 是 建立 查询 模型 并 进行 试验 。 
如 果 所 有 查询 大 体 上 相同 ， 你 也 许 能 确定 一 个 值 ， 否 则 ， 你 将 需要 根 
据 和 查询 参数 反复 试探 来 确定 一 个 精度 。 无 论 哪 种 情况 ， 你 都 需要 了 解 
你 的 数据 和 应 用 系统 ! 

根据 得 询 而 不 是 数据 设计 你 的 扫描 

请 注意 ， 我 们 建议 根据 应 用 层次 的 查询 选择 geohash 的 前 级 精度 。 
你 始终 要 根据 查询 设计 你 的 HBase 扫描 ， 而 不 是 根据 数据 设计 它们 。 
在 应 用 系统 “建成 ?很久 以 后 ， 数 据 会 随 着 时 间 变 化 。 如 果 把 查询 扫描 


建立 在 数据 上 ， 和 查询 性 能 会 随 着 数据 一 起 改变 。 这 意味 着 一 个 今天 快 
速 的 查询 明天 就 会 变 成 慢 速 的 查询 。 根 据 应 用 层次 的 查询 建立 扫描 则 
意味 着 “快速 查询 ”相对 于 “ 慢 速 查询 ”始终 快 一 些 。 如 果 你 把 扫描 和 应 用 
层次 查询 连 在 一 起 ， 你 的 应 用 系统 的 用 户 会 享受 更 一 致 的 体验 。 
你 可 以 组 装 一 个 人 简单 的 main()， 然 后 看 看 一 切 是 否 工 作 正 常 。 好 

的 ， 差 不 多 啦 。 你 还 需要 加 载 数据 。 对 于 一 个 制 表 符 分 隔 值 (tab- 
separated value) 的 文件 ， 你 不 会 对 解析 它 的 细节 感 兴趣 ， 你 关心 的 是 
如 何 使 用 GeoHash 库 构造 行 键 使 用 的 散 列 值 。 这 部 分 代码 非常 简单 。 这 
些 需 要 加 载 的 都 是 数据 点 ， 所 以 使 用 12 个 字符 精度 。 再 说 一 裔 ， 这 是 
你 能 构造 的 最 长 的 可 打印 的 geohash， 并 仍然 可 以 容纳 在 一 个 Javalong 
数据 类 型 里 : 


double lat = Double.parseDouble(row.get ("lat")),; 
double lon = Double.parseDouble(row.get ("lon")); 
String rowkey = GeoHash.withCharacterPprecision(lat, lon, 12) .toBase32 () ; 


现在 你 有 了 所 有 需要 的 东西 。 我 们 先 从 打开 Shell 并 创建 一 张 表 开 
始 。 这 里 列 族 不 是 特别 重要 ， 所 以 我 们 选择 一 个 短 的 名 字 : 


$ echo "create 'wifi', 'a'" | hbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.92.1, rl1298924, Fri Mar 9 16:58:34 UTC 2012 


create 'wifi', 'a' 
0 row(s) in 6.5610 seconds 


测试 数据 已 经 在 项 目 里 打 好 包 ， 所 以 一 切 都 准备 融 绪 。 让 我 们 编 
译 应 用 系统 ， 然 后 在 完整 数据 集 上 运行 Ingest 工 具 : 


$ mvn clean package 


FENRO ba i 
[INFO] BUILD SUCCESS 
[INFO] ---------------------- 
$ java -cp target/hbaseia-gis-1.0.0.jar \ 

HBaseIA.GIS.Ingest \ 

wifi data/wifi 4326.txt 
Geohashed 1250 records in 354ms. 


看 起 来 不 错 ! 该 运行 一 次 查询 了 。 至 于 目标 点 的 选择 ， 让 我 们 要 
个 花招 ， 我 们 选择 一 个 已 有 的 数据 点 坐标 。 如 果 距 离 算法 完全 没有 问 


题 ， 那 个 点 应 该 是 第 一 个 返回 结果 。 我 们 把 ID 593 作为 查询 的 中 心 : 
$ java -cp target/hbaseia-gis-1.0.0.jar \ 


HBaseIA.GIS.KNNQOuery -73.97000655 40.76098703 5 
Scan over 'dr5ruu2' returned 2 candidates. 
Scan over 'dr5ruu8' returned 0 candidates. 
Scan over 'dr5ruu9' returned 1 candidates. 
Scan over 'dr5ruu3' returned 2 candidates. 
Scan over 'dr5ruul' returned 1 candidates. 
Scan over 'dr5ruu0' returned 1 candidates. 
Scan over 'dr5rusp' returned 0 candidates. 
Scan over 'dr5rusr' returned 1 candidates. 
Scan Over 'dr5rusx' returned 0 candidates. 
<QueryMatch: S93 dr5ruu29vytaqs =73%9700; 0s 610% 200000 
<QuUueryMatch: 219, dr5ruu2y5vkb, -73.9697, 40.7617, 0.00077 
<QueryMatch: 1132, dr5ruu3d9tn9, -73.9688, 40.7611, 0.00120 
<QueryMatch: 463, dr5ruu3d7x0b, -73.9687, 40.7611, 0.00127 
<QueryMatch: 472; zx57Uu1lxLet8 -73a9688; ‘40,7605; .0s00130 


太 棒 了 ! 匹配 查询 目标 的 那个 点 ID 593， 第 一 个 出 现 了 ! 我 们 已 
经 添加 了 一 点 儿 调 试 信息 来 帮助 理解 这 些 结果 。 第 一 组 输出 表示 每 一 
个 前 绥 扫 摘 贡 献 了 多 少 个 中 间 结 有 末 。 第 二 组 输出 是 最 终 的 匹配 结 采 。 
打印 出 来 的 字段 分 别 是 ID、geohash、 经 度 、 纬 度 和 离 查询 目标 的 距离 
等 。 这 个 查询 结果 在 空间 上 的 布局 如 图 8-10 所 示 。 
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图 8-10 可 视 化 显示 查询 结果 。 在 寻找 匹配 项 的 查询 坐标 周边 进行 
这 种 简单 的 蝶 旋 式 搜索 。 一 种 更 智能 的 实现 会 考虑 中 心 空 间 区 域 里 的 
查询 坐标 位 置 。 一 旦 找到 最 少 匹 配 数量 ， 搜 索 束 会 跳 过 所 有 远 一 点 的 

邻居 

很 酷 ， 对 吧 ? 你 可 能 注意 到 了 ， 所 有 比较 的 工作 发 生 在 操作 的 客 
户 疾 。 这 些 扫 揪 码 出 了 所 有 数据 ， 后 期 处 理 都 在 客户 病 进 行 。 但 是 你 
部 署 的 是 一 个 HBase 集 群 ， 所 以 让 我 们 看 看 能 否 让 集群 来 执行 计算 工 
作 。 或 许 你 可 以 使 用 一 些 其 他 特性 把 HBase 扩 展 成 一 个 成 熟 的 分 布 式 地 
理 信 息 查询 引擎 。 


8.4 把 计算 工作 推 往 服务 器 


我 们 的 示例 数据 集 相 当 小 ， 只 有 1200 个 点 ， 并 且 每 个 点 也 没有 太 
多 属性 。 但 是 ， 数 据 会 增长 ， 用 户 总 是 需要 更 快 的 体验 。 尽 可 能 把 工 
作 推 往 服 务 器 端 一 般 来 说 是 个 好 主意 。 如 你 所 知 ，HBase 提 供 了 两 种 机 
制 来 把 计算 工作 推 往 RegionServer， 这 两 种 机 制 是 过 滤器 (filter) 和 协 
处 理 器 (coprocessor) 。 本 广 中 ， 你 将 在 已 经 开始 的 wifi 例 子 上 进行 扩 
展 。 你 将 实现 一 种 新 的 地 理 信息 查询 ， 并 且 使 用 一 个 定制 的 过 滤器 来 
完成 查询 。 实 现 一 个 定制 的 过 滤器 会 产生 一 些 操作 开销 ， 所 以 在 开始 
前 你 可 以 改进 一 下 使 用 geohash 的 方式 。 

先 从 改变 查询 开始 。 现 在 不 再 查找 特定 位 置 附近 的 wifi 热 点 了 ， 而 
是 查找 申请 空间 的 所 有 热点 。 尤 其 是 ， 你 将 回答 这 个 查询 请 求 :“ 在 时 
代 广 场 街区 里 都 有 哪些 wifi 热 点 ? ”包含 时 代 广 场 的 空间 是 个 相对 简单 
的 、 可 以 手绘 的 形状 : 只 有 4 个 角 。 你 可 以 用 这 些 点 (40.758703° N， 
73.980844° W)、(40.761369° N, 73.987214° W)、(40.756400° N, 
73.990839° W)、(40.753642° N, 73.984422° W) 来 定义 这 个 空间 。 它 的 查 
询 区 域 以 及 数据 如 图 8-11 所 示 。 如 同 你 看 到 的 ， 你 预期 在 查询 结果 里 
应 该 得 到 大 约 25 个 点 。 


图 8-11 时 代 广 场 街 区 内 的 查询 。 我 们 使 用 Google Earth 来 打量 一 下 
时 代 广 场 的 4 个 角 。 那 些 华 丽 的 标志 有 牌 好 像 吸 收 了 wifi 信 号 ， 和 城市 其 


他 部 分 相 比 这 里 的 w 刘 不 算 密 集 。 你 可 以 预期 大 约 有 25 个 点 匹配 你 的 碍 
询 
这 是 一 个 相当 简单 的 形状 ， 可 以 铺 在 地 图 上 手绘 出 来 。 这 是 一 个 
简单 多 边 形 。 你 在 查询 里 可 能 有 很 多 原因 需要 用 到 多 边 形 。 例 如 ， 像 
Yelp 的 一 个 服务 需要 给 用 户 提 供 预定 义 的 描画 当地 地 区 边界 的 多 边 
形 。 甚 至 你 可 能 允许 用 户 手绘 他 们 的 查询 多 边 形 。 这 里 你 将 要 采用 的 
方式 可 以 处 理 这 种 简单 长 方形 ， 对 于 更 复杂 的 形状 也 同样 奏效 。 


查询 区 域 形状 确定 以 后 ， 该 设计 一 个 实现 查询 的 计划 了 。 惑 像 k 个 
最 近邻 大 的 查询 实现 一 样 ， 你 希望 该 实现 可 以 把 从 HBase 中 读 出 的 候选 
位 置 点 的 数量 降 到 最 低 。 你 可 以 使 用 geohash 索 3 引 ， 它 带 着 你 走 得 相当 
远 。 第 一 步 是 把 查询 多 边 形 转换 成 一 组 geohash 扫 撒 。 如 同 你 在 上 一 个 
查询 里 掌握 的 ， 这 会 提交 给 你 所 有 的 候选 位 置 点 ， 并 且 没 有 太 多 多 余 
数据 。 第 二 步 是 把 包含 在 查询 多 边 形 里 的 点 拉 出 来 。 这 两 步 需要 一 个 
几何 函数 库 的 帮助 。 很 笠 运 ， 在 JTS 拓 扑 套 件 (JTS) .HL 里 有 这 样 一 个 
库 。 你 可 以 使 用 这 个 函数 库 在 geohash 和 查询 多 边 形 之 间架 起 桥梁 。 

8.4.1 基于 查询 多 边 形 创建 一 次 geohash 扫 描 

为 了 创建 这 一 步 查 询 ， 你 需要 准确 了 解 要 扫描 哪些 前 级 。 和 以 前 
一 样 ， 你 希望 把 扫 摘 的 次 数 和 扫描 徐 盖 的 空间 区 域 降 到 最 小 。 
GeoHash.getAdjacent() 方 法 给 了 你 一 个 简便 的 办 法 ， 可 以 在 使 用 低 精 度 
geohash 之 前 扩大 碍 询 区 域 。 让 我 们 使 用 该 方法 来 找到 一 组 合适 的 扫描 
一 组 最 小 包围 的 前 级 。 在 讨论 算法 之 前 ， 先 掌握 几 个 几何 学 技巧 
是 有 帮助 的 。 

你 要 使 用 的 第 一 个 技巧 是 形 心 (centroid) .2 到 ， 多 边 形 的 几何 中 
心 点 。 这 个 查询 的 参数 是 一 个 多 边 形 ， 每 个 多 边 形 有 一 个 形 心 。 你 将 
使 用 形 心 开始 计算 最 小 包围 前 级 的 集合 。 如 果 你 有 一 个 Geometry 实 
例 ，JTS 可 以 使 用 Geometry.getCentroid() 方 法 来 计算 这 个 形 心 。 因 此 你 
需要 一 种 方法 ， 能 够 基于 查询 参数 实例 化 生成 一 个 Geometry 对 象 。 有 
一 个 叫做 WKT II (well-known text) 的 简单 文本 格式 ， 可 以 用 来 描述 
几何 形状 。 把 这 个 时 代 广 场 的 查询 转换 成 WKT 形 式 ， 如 下 所 示 : 


POLYGON ((-73.980844 40.758703 ， 
-73.987214 40.761369 ， 
-73.990839 40.756400,， 
-73.984422 40.753642,， 
-73.980844 40.758703)) 

这 是 数据 空间 里 的 时 代 广 场 。 从 技术 上 说 ， 多 边 形 是 一 个 封闭 的 
形状 ， 所 以 第 一 个 和 最 后 一 个 点 必须 相同 。 应 用 系统 接收 WKT 作为 查 
询 输 入 。JTS 提 供 了 一 个 WKT 的 解析 器 ， 你 可 以 使 用 它 基 于 查询 输入 
创建 一 个 Geometry 实例 。 一 旦 你 有 了 这 个 Geometry 实 例 ， 只 需要 调用 
一 个 方法 瓯 可 以 得 到 形 心 : 

SEE 可 WKE 三 

WKTReader reader = new WKTReader(); 

Geometry query = reader.read (wkt),， 

Point queryCenter = query.getCentroid()., 


带 有 形 心 的 查询 多 边 形 如 图 8-12 所 示 。 
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图 8-12 带 有 形 心 的 查询 多 边 形 。 形 心 点 是 你 开始 计算 最 小 边界 的 


geohash 集 合 的 地 方 
现在 你 知道 了 查询 多 边 形 的 形 心 ， 这 是 开始 计算 geohash 的 地 方 。 

但 问题 是 ， 你 不 知道 需要 多 大 一 个 geohash 可 以 完全 包含 查询 多 边 形 。 
你 需要 有 办 法 来 计算 出 一 个 geohash， 并 看 看 是 否 可 以 完全 包含 用 户 的 
查询 多 边 形 。JTS 里 的 Geometry 类 有 一 个 contains() 方 法 正 是 做 这 个 
的 。 如 果 不 是 必须 ， 你 也 不 愿意 降低 精度 水 平 。 如 有 果 当 前 精度 的 
geohash 不 能 包含 查询 多 边 形 ， 你 应 该 试 试 这 个 geohash 加 上 它 的 所 有 直 
接 邻 居 。 因 此， 你 需要 一 种 办 法 来 把 一 个 GeoHash 或 一 组 GeoHashes 转 


换 成 一 个 Geometry。 这 带 来 了 第 二 个 几何 学 技巧 : 凸 包 (convex 
hull) 。 

某 多 边 形 是 包 的 正式 定义 是 :所 有 包含 该 多 边 形 的 几何 形状 集合 
的 交集 。 维 基 百 科 网 页 [有 一 个 简单 的 描述 ， 这 足以 满足 你 的 需要 。 
网 页 上 面 说 你 可 以 把 一 组 几何 形状 的 品 包 想象 成 用 一 个 橡皮 圈 把 这 些 
几何 形状 紧 紧 圈 起 来 时 的 形状 。 这 些 几 何 学 概念 在 图 片上 很 容易 解 
释 ， 一 些 随机 无 规则 点 的 凸 包 如 图 8-13. 雪 所 示 。 


图 8-13 凹 包 是 紧 紧 围 住 一 组 几何 形状 的 形状 。 本 例 中 ， 这 组 几何 
形状 古 一 些 简 单 的 点 。 你 将 用 它们 来 测试 一 个 geohash 的 全 部 邻居 的 禾 
盖 情 况 

当 你 想 知 道 查询 多 边 形 是 否 落 在 全 部 geohash 邻 大 里 时 ， 凸 包 对 于 
这 种 情况 是 很 有 用 的 。 本 例 中 ， 这 意味 着 是 否 有 一 个 或 一 组 geohash,， 
你 可 以 通过 在 所 有 geohash 的 拐角 点 上 取 凸 包 来 创建 一 个 履 盖 测试 多 边 
形 。 每 个 GeoHash 是 一 个 有 边界 的 方块 (BoundingBox) ， 而 
BoundingBox 有 4 个 拟 角 。 让 我 们 把 这 些 封装 到 一 个 方法 里 : 


Set<Coordinate> getCoords (GeoHash hash) { 
BoundingBox bbox = hash.getBoundingBox(); 西南 
Set<Coordinate> coords = new HashSet<Coordinate> (4) ; 拐角 西北 
coords.add (new Coordinate (bbox.getMinLon(), bbox.getMinLat())) + 拐角 
coords.add (new Coordinate (bbox.getMinLon(), bbox.getMaxLat () ) ) ; 4 
coords.add (new Coordinate (bbox.getMaxLon(), bbox.getMaxLat () ) ) < 一 
coords .add (new Coordinate (bbox.getMaxLon () ，bbox.getMinLat () ) ) 4 长 
return coords; 东北 抛 角 

) 拐角 


在 geohash 邻居 的 完整 集合 的 情况 下 ， 你 需要 循环 处 理 每 一 个 
geohash， 在 每 一 个 geohash 上 调用 getCoords0 ， 收 集 它 们 的 抛 角 坐 标 。 
使 用 Coordinate， 你 可 以 创建 一 个 简单 的 Geometry 实 例 ，MultiPoint 扩 
展 了 父 类 Geometry，MultiPoint 代 表 一 组 点 。 因 为 Multipoint 没有 和 额外 
的 几何 形状 限制 ， 所 以 你 将 使 用 Multipoint， 而 不 是 像 Polygon 这 样 的 东 
西 。 创 建 MultiPoint 实 例 ， 然 后 获取 它 的 convexHull0。 你 可 以 把 所 有 这 
坚 夏 进 太 二 个 和 铺 助 方 凑 : 


Geometry convexHull (GeoHash [] hashes) { 
Set<Coordinate> coords = new HashSet<Coordinate>(); 


for (GeoHash hash : hashes) { | 收集 所 有 hash 的 所 有 拐角 
coordqs .addqA11 (getCoords (hash) ) ; 


} 


GeometryFactory factory = new GeometryFactory(); 
Geometry geom 

= factory.createMultiPoint (coords.toArray (new Coordinate [0] ) ) ; 
return geom.convexHull () ; < 一 一 


} 获取 Geometry 的 凸 包 基于 拐角 坐标 创建 简单 的 
Geometry 实例 

现在 一 切 就 绪 ， 你 可 以 基于 查询 多 边 形 来 计算 最 小 包围 的 geohash 
前 缀 集合 。 到 目前 为 止 ， 你 已 经 使 用 过 7 个 字符 的 geohash 精 度 ， 在 这 个 
数据 集 上 取得 了 合理 的 成 功 ， 所 以 这 次 也 从 这 里 开始 。 对 于 这 个 算 
法 ， 先 基于 查询 多 边 形 的 形 心计 算出 7 个 字符 的 geohash， 然 后 检查 这 
个 geohash 的 覆盖 情况 。 如 果 不 够 大 ， 基 于 这 个 geohash 和 8 个 邻居 的 完 
整 集合 执行 同样 的 计算 。 如 果 这 组 前 绥 还 是 不 够 大 ， 把 精度 降低 到 6 个 
字符 ， 并 且 再 次 尝试 整个 过 程 。 


代码 比 言语 更 有 说 服 力 。 这 个 minimumBoundingPrefixes() 方 法 如 
下 : 


GeoHash[] minimumBoundingPrefixes (Geometry query) { 


GeoHash candidate,; 是 es 
Geometry candidateGeom; 
Point queryCenter = query.getCentroid!(); 
for (int precision = 7; precision > 0; precision--) { 
candidate 和 7 个 字符 精 
= GeoHash.withcharacterPrecision (dueryCenter .getY() ， 度 的 geohash 
queryCenter .getX() ， 开始 
precision); 


candidateGeom = convexHull (new GeoHash[]{ candidate }); 
if (candidateGeom.contains (query)) 
i 检查 hash 的 


return new GeoHash[]i candidate 上 ; 小 
{ } 履 盖 情况 如 果 失 败 ， 
} i 检查 全 套 
candidateGeom = convexHull (candidate.getAdjacent () ) ; geohash 的 
if (candidateGeom.contains (Guery)) { 覆盖 情况 
GeoHash [] ret = Arrays.copyOf (candidate.getAdjacent ()，9) ; | 
zet [8] = candidate; 
pe 
return ret; 人 不 要 忘 了 加 上 
} 中 心 hash 
} a 
困 . 朱 由 主 尹 
throw new I11egalArgumentException( 和 如果 失败 ， 降 低 精度 
"Geometry cannot be contained by GeoHashs'" ) ; 别 ， 再 次 尝 


当然 ， 图 片 比 代码 更 有 说 服 力 。 分 别 在 6 个 字符 和 7 个 字符 精度 水 
平 把 查询 多 边 形 和 geohash 蕉 放 在 一 起 的 尝试 如 图 8-14 所 示 。7 个 字符 是 
不 够 履 盖 得 询 多 边 形 的 ， 所 以 这 个 精度 水 平 必须 降低 。 
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图 8-14 在 6 个 字符 和 7 个 字符 精度 时 的 覆盖 测试 。 在 7 个 字符 时 ， 中 
心 geohash 和 全 部 邻居 加 起 来 还 是 不 能 窗 盖 整个 查询 区 域 ， 降 低 到 6 个 字 
符 就 可 以 完成 任务 
图 8-14 也 凸显 了 当前 方式 的 缺点 。 在 6 个 字符 精度 时 ， 你 的 确 履 
盖 了 整个 查询 区 域 ， 但 是 整个 西边 的 方 框 没有 贡献 任何 落 在 查询 里 的 
数据 。 你 可 以 在 选择 前 绥 方 框 时 更 智能 一 些 ， 但 是 这 涉及 很 复杂 的 计 
算 逻 辑 。 我 们 暂且 认为 这 样 已 经 足够 好 了 ， 并 且 继 续 改进 这 个 查询 。 


8.4.2 义 [人 合计 吊 一 呈 :. 六 端 


在 建立 服务 器 端 过 滤器 之 前 ， 让 我 们 先 在 客户 端 完 成 查询 逻辑 建 
立 和 测试 工作 。 即 使 在 客户 端 本 地 运行 成 功 ， 部 署 、 测 试 和 重新 部 署 
任何 服务 器 端 组 件 也 是 很 烦人 的 ， 所 以 让 我 们 先 在 客户 端 建立 和 测试 
核心 逻辑 。 不 但 如 此 ， 而 且 你 创建 的 逻辑 将 来 还 可 以 被 其 他 查询 重复 
使 用 。 

客户 端 逻 辑 的 主体 基本 上 和 KNNQuery (K 个 最 近邻 居 查 询 ) 相 
同 。 这 两 个 例子 中 ， 你 需要 先 创建 一 个 竺 扫描 的 geohash 前 组 列表 ， 然 
后 执行 这 些 扫 描 ， 并 且 收 集 返 回 结果 。 因 为 大 部 分 内 容 相 同 ， 我 们 将 
跳 过 扫描 器 代码 。 你 感 兴趣 的 是 检查 一 个 返回 点 是 否 沙 在 查询 多 边 形 
里 。 为 此 ， 你 需要 为 每 个 QueryMatch 实例 创建 一 个 Geometry 实 例 。 基 
于 Geometry 实 例 ， 使 用 和 前 面相 同 的 contains() 调 用 就 可 以 成 功 判 断 : 
get<QueryMetoh> zet -new Haehset<QueryMatch> 7 ”| 得 到 竺 扫描 的 前 级 


HTableInterface table = pool.getTable ("wifi"),; 
for (GeoHash prefix : prefixes) { 


。。。 | 
行 二 | 建 完 合 wt 
} 执行 扫描 ,创建 oueryMat ch 实例 遍历 所 有 
table.close(); ; 先 对 
for (Iterator<QueryMatch> iter = ret.iterator(); iter.hasNext();) { 候选 对 象 


QueryMatch candidate = iter.next() ; < 
Coordinate coord = new Coordinate(candidate.lon, candidate.1lat),; 
Geometry point = factory.createPoint (coord),，; 


if (!query.contains (point)) < 一 测试 是 否 落 为 每 个 候选 对 象 创 
iter.remove(); < 一 移 除 不 在 查 在 查询 区 域 建 Geometry 实例 
} 询 区 域 的 


QueryMatch 结 果 包 含 经 度 和 纬度 值 ， 你 可 以 把 这 些 值 转换 成 一 个 
Coordinate 实 例 。 使 用 与 前 面相 同 的 GeometryFactory 类 ， 把 这 个 
Coordinate 转 换 成 一 个 Point， Point 是 Geometry 的 子 类 。containsO 只 是 
对 Geometry 类 可 用 的 多 个 空间 判断 方法 地] 之 一 。 这 是 件 好 事情 ， 因 为 
这 意味 着 你 在 查询 里 为 此 创建 的 框架 可 以 被 许多 其 他 空间 判断 操作 重 
复 使 用 。 

让 我 们 把 代码 打 成 包 ， 测 试 一 下 这 个 查询 。main() 方 法 里 仍然 没有 
什么 有 趣 的 东西 ， 只 是 解析 参数 和 提交 查询 ， 所 以 跳 过 它 的 代码 。 数 


据 已 经 加 载 过 了 ， 所 以 你 可 以 直接 运行 代码 。 重 新 编译 应 用 ， 然 后 在 
时 代 广 场 周边 的 目标 数据 上 执行 一 次 查询 : 


$ mvn clean package 


EENEO] -=-------- 
[INFO] BUILD SUCCESS 
[INFO] <=-=-=- 
$ java -cp target/hbaseia-gis-1.0.0.jar \ 
HBaseIA.GIS.WithinQuery local \ 
"POLYGON ((-73.980844 40.758703, \\ 
-73.987214 40.761369, \\ 
-73.990839 40.756400，N\ 
-73.984422 40.753642, \ 
-73.980844 40.758703))" 
Geometry predicate filtered 155 points. 
Query matched 26 points. 


<QueryMatch: 644, drS5ru7tt72wm, -73.9852, 40.7574, NaN > 
<QueryMatch: 634, dr5rukjkhsd0, -73.9855, 40.7600, NaN > 
<QueryMatch: 847, dr5ru7gq2tn3k, -73.9841, 40.7553, NaN > 
<QUueryMatch: 1294, dr5ru7hpn094, -73.9872, 40.7550, NaN > 
<QUueryMatch: 569, dr5ru7rxeqn2, -73.9825, 40.7565, NaN > 
<QueryMatch: 732, drS5Sru7fvm5jh, -73.9889, 40.7588, NaN > 
<QueryMatch: 580, drS5rukn9brrk, -73.9840, 40.7596, NaN > 
<QueryMatch: 445, dr5ru7zsemkp, -73.9825, 40.7587, NaN > 
<QueryMatch: 517, dr5ru7yhj0n3, -73.9845, 40.7586, NaN > 
<QueryMatch: 372, dr5ru7m0Obm8m, -73.9860, 40.7553, NaN > 
<QueryMatch: 516, dr5rue8nkly4, -73.9818, 40.7576, NaN > 
<QueryMatch: 514, dr5ru77myu3f, -73.9882, 40.7562, NaN > 
<QueryMatch: 566, dr5rukk42vj7, -73.9874, 40.7611, NaN > 
<QueryMatch: 656, dr5ru7TeShcp5, -73.9886, 40.7571, NaN > 
<QueryMatch: 640, drSsrukhnyc3x, -73.9871, 40.7604, NaN > 
<QueryMatch: 653, dr5ru7Tepfgl7, -73.9887, 40.7579, NaN > 
<QueryMatch: 570, drs5ru7fvdecd, -73.9890, 40.7589, NaN > 
<QueryMatch: 1313, dr5ru7k6h9ub, -73.9869, 40.7555, NaN > 
<QueryMatch: 403, dr5ru7hv4vyw, -73.9863, 40.7547, NaN > 
<QueryMatch: 750, drS5ru7ss0bul, -73.9867, 40.7572, NaN > 
<QueryMatch: S515, dr5ru7g0bgy5, -73.9888, 40.7581, NaN > 
<QueryMatch: 669, dr5ru7hzsnzl, -73.9862, 40.7551, NaN > 
<QueryMatch: 631, dr5ru7t33776, -73.9857, 40.7568, NaN > 
<QueryMatch: 637, dr5ru7xxuCCw, -73.9824, 40.7579, NaN > 
<QueryMatch: 1337, dr5ru7dsdf6g, -73.9894, 40.7573, NaN > 
<QueryMatch: 565, dr5rukp0fp9v, -73.9832, 40.7594, NaN > 


你 得 到 了 26 个 结果 。 这 和 我 们 之 前 的 猜测 非常 接近 。 为 了 体会 后 
面 的 工作 ， 请 注意 有 多 少 点 被 contains0) 判 断 排除 。 如 果 把 过 滤器 逻辑 
推 往 集 群 ， 你 可 以 把 网 络 上 传输 的 数据 量 减少 大 约 500%! 但 是 ， 首 先 
让 我 们 再 次 确认 结果 是 否 正确 。 输 出 的 QueryMatch 行 很 有 意思 ， 但 是 
如 果 看 到 这 些 结果 ， 你 很 容易 注意 到 有 一 个 Bug (应 该 是 25 个 结果 ) 。 
这 个 查询 的 结果 如 图 8-15 所 示 。 

这 看 起 来 相当 好 。 你 可 能 还 想 把 查询 的 边界 扩大 一 点 儿 ， 那 样 ， 
这 个 查询 会 获取 几 个 紧 挨 边界 线 外 面 的 位 置 。 现 在 你 知道 了 这 个 逻辑 
的 工作 原理 ， 让 我 们 把 这 些 计算 任务 转移 到 那些 空 内 的 RegionServer 
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图 8-15 区 域内 查询 结 来 。 包 含 过 滤 带 看 起 来 可 以 按 预期 下 前 工 
作 。 也 可 以 看 到 几何 形状 库 和 地 图 库 是 一 致 的 


8.4.3 区 询 第 二 菇 : WithinFilter 


现在 有 了 一 个 可 以 作为 基础 的 实现 ， 让 我 们 把 判断 逻辑 放 进 过 小 
鲁 。 那 样 你 就 可 以 把 多 余 的 数据 留 在 集群 那 边 。 你 在 客户 端 版 本 上 验 
证 了 这 个 实现 ,一 切 都 准备 好 了 。 应 该 看 到 唯一 的 不 同 是 ， 使 用 了 过 
滤 如 的 版 本 会 大 大 减少 网 络 压 力 ， 因 此 理论 上 会 运行 得 更 快 。 除 非 你 
是 在 一 台 HBase 单 机 模式 的 数据 集 上 运行 。 

WithinFilter \ 区 域内 过 滤器 ) 与 你 在 第 4 章 看 到 的 PasswordStrength 
Filter 类 似 。 就 像 PasswordStrengthFilter 一 样 ， 该 过 滤器 基于 行 里 的 单元 
存储 的 数据 进行 过 滤 ， 所 以 你 需要 维护 某 个 状态 。 本 例 中 ， 为 了 同时 
访问 X 和 Y 坐 标 ， 你 需要 履 盖 void filterRow(List<KeyValue>) 方 法 。 你 将 
把 客户 端 实 现 的 逻辑 转移 到 这 里 。 在 你 要 过 滤 掉 一 行 的 时 候 ， 这 个 方 
法 会 更 新 状态 变量 。 es filterRow() 方 法 如 下 : 
public void filterRow (List<KeyValue> kvs) 


double lon = Double.NaN; 
double lat = Double.NaN; 


for (KeyValue kv : kvs) { 找到 X 坐标 
if (Bytes.equals (kv.getQualifiezr()，X COL)) < 一 
lon = Double.parseDouble (new String(kv.getQualifier())); 
if (Bytes.equals(kv.getQualifier(), Y COL)) + 
lat = Double.parseDouble (new string (kv.getQualifier())).; ] 找到 Y 坐标 


} 


Coordinate coord = new Coordinate(lon, lat); 浊 
创建 Point 
Geometry point = factory.createPoint (coord) ; 
if (!query.contains (point)) < 一 
this.exclude = true; | 测试 是 否 包 含 


遍历 每 行 每 个 列 族 的 每 个 KeyValue 的 方法 可 能 很 慢 。 如 果 可 以 ， 
HBase 会 优化 对 filterRow() 的 调用 ， 你 必须 在 FilterBase 的 扩展 里 显 式 局 
用 它 。 通 过 再 一 次 徐 盖 告诉 过 滤 促 ， 让 HBase 调 用 该 方法 : 
public boolean hasFilterRow() { return true; |】 


当 你 因为 某 行 没有 落 在 查询 边界 里 想 排除 它 时 ， 你 需要 设置 
exclude 标 志 。 该 标志 在 boolean filterRow0O 里 作为 排除 条 件 使 用 : 
public boolean filterRow() { 
return this.exclude,; 


} 

你 将 基于 main0) 函 数 的 参数 解析 来 的 query (Geometry 的 实例 ) 构 
造 过 滤 右 。 在 客户 端 构造 过 滤 圳 如下: 
Filter withinFilter = new WithinFilter (Gdquery) ; 

除了 把 排除 逻辑 转移 到 Filter 实 现 的 外 面 之 外 ， 新 方法 看 起 来 没有 
很 大 不 同 。 在 你 目 己 的 过 滤 络 里 ， 不 要 起 了 包括 一 个 不 带 参 数 的 默认 
构造 玉 数 。 这 对 于 序列 化 API 是 必需 的 。 现 在 可 以 安装 过 滤器 并 让 它 运 
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一 条 很 少 人 走 的 路 

写 这 部 分 的 时 候 ， 还 没有 太 多 定制 过 滤器 实现 的 例子 。 我 们 有 一 
个 HBase 随机 附带 的 过 滤器 列表 (一 个 令 人 印象 深刻 的 列表 ) ， 但 是 
再 多 就 没有 了 。 因 此 ， 如 采 你 选择 实现 日 己 的 过 滤器 ， 你 可 能 会 独 日 
抓 耳 挠 腥 。 但 是 不 要 怕 ! HBase 是 开放 的 ， 你 有 源 代码 ! 

如 果 你 认为 HBase 没有 正确 处 理 接口 和 调用 环境 之 间 的 约定 ， 你 
总 是 能 追溯 到 源 代 码 。 处 理 这 种 事情 的 一 个 方便 的 技巧 就 是 创建 和 记 
录 异 常 。 不 需要 抛 异 常 ， 只 是 创建 和 记录 它 。LOG.info("", new 
Exception()); 这 样 应 该 焉 可 以 。 栈 跟 踩 会 在 应 用 日 志 里 看 到 细 季 ， 你 
会 精确 知道 从 什么 地 方 翻 查 上 游 代码 。 到 处 设置 异常 可 以 很 好 地 采样 
言 息 ， 什 么 在 (或 不 在 ) 调用 你 的 定制 过 滤器 。 

如 果 你 正在 调试 一 个 行为 异常 的 过 滤器 ， 每 次 遇 历 数据 你 将 必须 
停止 和 启动 HBase， 以 便 让 HBase 知 道 JAR 包 的 改变 。 这 正 是 本 例 中 你 
要 先 在 客户 六 测试 逻辑 的 原因 。 


为 了 让 RegionServer 能 够 实例 化 过 滤器 ， 过 滤器 必须 安装 在 HBase 
集群 上 。 让 我 们 增加 JAR 包 到 类 路 径 里 ， 然 后 重启 进程 。 如 果 你 的 JAR 
包 像 这 个 例子 一 样 包括 依赖 项 ， 也 要 确保 登记 这 些 依 赖 项 的 类 。 你 可 
以 把 那些 JAR 包 添加 到 类 路 径 里 ， 或 者 创建 一 个 大 JAR 包 (uber- 

JAR) ， 把 所 有 JAR 包 的 类 放 进 自己 创建 的 大 JAR 包 里 。 为 简单 起 见 ， 
这 里 就 是 这 么 做 的 。 实 战 中 ， 我 们 推荐 你 保持 JAR 包 的 简洁 ， 只 是 需要 
时 才 附 带 这 些 依赖 项 。 这 会 简化 版 本 冲突 的 调试 ， 以 后 这 全 部 会 不 可 
避 任 地 出 现 。 将 来 你 会 感谢 自己 的 。 同 样 的 处 理 也 适用 于 定制 的 协 处 
理 器 (Coprocessor) 的 部 署 。 

要 精确 找 出 你 的 过 滤器 (Filter) 或 协 处 理 器 (Coprocessor) 依赖 
哪些 外 部 JAR 包 ， 以 及 那些 JAR 包 又 依赖 了 哪些 JAR 包 ，Maven 可 以 帮 
你 。 它 可 以 精确 确定 这 些 东 西 。 本 例 中 ，Maven 显 示 只 有 两 个 依赖 项 没 
有 人 被 Hadoop 和 HBase 提 供 。 


$ mvn dependency:tree 


[INFO] --- maven-dependency-plugin:2.1:tree (default-cli) @ hbaseia-gis --- 
[INFO] HBaseIA:hbaseia-gis:jar:1.0.0-SNAPSHOT 
[INFO] +- org.apache.hadoop:hadoop-core:jar:1.0.3:compile 


Le) 


[INFO] 


+- Commons-cli:commons-cli:jar:1.2:compile 


[INFO] +- org.apache.hbase:hbase:jar:0.92.1:compile 

[INFO] | +- com.google.guava:guava:jar:r09:compile 

[INFO] +- org.clojars.ndimiduk:geohash-java:jar:1.0.6:compile 

[INFO] \- com.vividsolutions:jts:jar:1.12:compile 

[INEO] <= 


[INFO] BUILD SUCCESS 
[INFO] ------------------------------------------------------------------ 


你 很 驻 运 这些 依赖 项 没有 带 来 它们 自己 需要 的 依赖 项 一 一 至 
少 ，JAR 包 都 提供 了 。 如 果 有 需要 的 依赖 项 ， 它 们 会 显示 在 树 形 图 里 。 

你 可 以 通过 编辑 $8HBASE_HOME/conf 目 对 里 的 hbase-env.sh 文 件 来 
安装 JAR 包 和 任何 依赖 项 。 把 export HBASE_CLASSPATH 开头 的 行 去 


掉 注 释 ， 添 加 你 的 JAR。 你 可 以 添加 多 个 JAR， 用 冒号 (:) 分 开 。 如 下 
所 示 : 


# Extra Java CLASSPATH elements. Optional. 
export HBASE CLASSPATH=/path/to/hbaseia-gis-1.0.0.jar 


现在 你 可 以 重新 编译 应 用 ， 重 新 局 动 应 用 ， 并 且 测 试 应 用 。 注 
意 ， 把 查询 工具 局 动 命令 的 第 一 个 参数 从 local 改 为 remote: 


$ mvn clean package 


[INFO] ----------------------------------------------------- 

[INFO] BUILD SUCCESS 

[INFO] ------------- 

$ $HBASE HOME/bin/stop-hbase.sh 

stopping hbase..... 

$ $HBASE HOME/bin/start-hbase.sh 

starting master, logging to .… 

$ java -cp target/hbaseia-gis-1.0.0.jar \ | 使 用 远程 的 而 不 是 本 地 的 

HBaseIRA.GIS .Withinouery remote \ 
"POLYGON ((-73.980844 40.758703, 

-73.987214 40.761369, 
-73.990839 40.756400， 
-73.984422 40.753642, 
-73.980844 40.758703))" 

Query matched 26 points. 

<QueryMatch: 644, dr5ru7tt72wm, -73.9852, 40.7574, NaN 

<QueryMatch: 1313, drS5ru7k6é6h9ub, -73.9869, 40.7555, NaN 

<QueryMatch: 403, drS5ru7hv4vyw, -73.9863, 40.7547, NaN 

<QueryMatch: 565, drSrukp0fp9v, -73.9832, 40.7594, NaN 

<QueryMatch: 516, dr5rue8nkly4, -73.9818, 40.7576, NaN 

<QueryMatch: 669, dr5ru7hzsnzl, -73.9862, 40.7551, NaN 

<QueryMatch: 445, dr5ru7zsemkp, -73.9825, 40.7587, NaN 

<QueryMatch: 580, drSrukn9brrk, -73.9840, 40.7596, NaN 

<QueryMatch: 732, dr5ru7fvmSjh, -73.9889, 40.7588, NaN 

<QuUueryMatch: 637, dr5ru7xxuCcCcw, -73.9824, 40.7579, NaN 

<QueryMatch: 566, dr5rukk42vj7, -73.9874, 40.7611, NaN 

<QueryMatch: 569, drSru7rxeqn2, -73.9825, 40.7565, NaN 

<QueryMatch: 515, dr5ru7g0bgy5, -73.9888, 40.7581, NaN 

<QueryMatch: 634, drsrukjkhsd0, -73.9855, 40.7600, NaN 

<QueryMatch: 640, drS5rukhnyc3x, -73.9871, 40.7604, NaN 

<QueryMatch: 372, dr5ru7mObm8m, -73.9860, 40.7553, NaN 

<QueryMatch: 517, drS5ru7yhj0n3, -73.9845, 40.7586, NaN 

<QueryMatch: 656, dr5ru7TeShcp5, -73.9886, 40.7571, NaN 

<QueryMatch: 1294, dr5ru7hpn094, -73.9872, 40.7550, NaN 

<QueryMatch: 653, drS5ru7epfg1l7, -73.9887, 40.7579, NaN 

<QueryMatch: 570, drS5ru7fvdecd, -73.9890, 40.7589, NaN 

<QueryMatch: 847, dr5ru7q2tn3k, -73.9841, 40.7553, NaN 

<QueryMatch: 1337, dr5ru7dsdf6g, -73.9894, 40.7573, NaN 

<QueryMatch: 750, dr5ru7ss0bul, -73.9867, 40.7572, NaN 

<QueryMatch: 631, dr5ru7t33776, -73.9857, 40.7568, NaN 


返回 了 同样 数量 的 点 。 如 果 执 行 一 个 快速 的 cat、cut、sort、diff 命 
令 ， 可 以 证 实 输出 结果 是 相同 的 。 在 图 8-16 上 通过 肉眼 检查 确认 了 这 一 
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最 后 的 测试 将 会 是 加 载 很 多 数据 到 分 布 式 集群 ， 测 定 两 种 实现 使 
用 的 时 间 。 执 行 一 个 巨大 区 域 的 查询 会 显示 出 显著 的 性 能 提升 。 但 
是 ， 请 小 心 。 如 果 你 的 查询 区 域 确实 够 大 ， 或 者 你 构建 了 一 个 复杂 的 
分 层 过 滤器 ， 你 可 能 会 遇 到 RPC 运 行 超时 之 类 的 事情 。 请 参考 我 们 前 
面 关 于 扫描 器 缓存 设置 的 建议 (8.3 节 ) ， 可 以 帮助 你 减少 这 种 问题 。 
AS / ES 7/ SS 


图 8-16 市 过 滤器 的 扫描 结 采 。 这 个 结果 看 起 来 应 该 和 图 8-15 的 结 
宋 相同 


8.5 小 结 


本 章 关 于 GIS 与 关于 HBase 讨 论 得 一 样 多 。 请 记 住 ，HBase 只 是 一 
个 工具 。 为 了 有 效 地 使 用 它 ， 你 需要 了 解 这 个 工具 并 且 了 解 使 用 它 的 
领域 。geohash 技 巧 印 证 了 这 一 点 。 掌 握 一 些 领 域 知 识 会 大 有 帮助 。 本 
章 展示 了 如 何 结合 领域 知识 和 对 HBase 的 理解 创造 一 种 工具 来 高 效 地 并 

行 处 理 成 堆 的 GIS 数 据 。 本 章 也 展示 了 如 何 把 应 用 逻辑 计算 转移 到 服务 
名 珊 ， 提 供 了 人 的 时 机 和 理由 的 建议 。 

值得 注意 的 是 ， 这 些 查 询 仅 仅 只 是 开始 。 同 样 的 技术 可 应 用 于 实 
现 许多 其 他 空间 判断 。 这 不 是 打算 替换 PostGIS .1BI， 但 它 是 一 个 开 
始 。 它 也 是 探索 如 何在 HBase 上 实现 多 维度 查 查询 的 开端 。 作 为 一 个 有 趣 
的 跟 进 ， 有 一 篇 论文 在 2011 年 区] 发表， 研究 把 像 四 又 树 和 k-d 树 这 样 
的 传统 数据 结构 以 辅助 索引 的 形式 移植 到 HBase 上 的 方法 。 

本 章 结束 了 本 书 关 于 在 HBase 上 构建 应 用 系统 的 部 分 。 但 是 ， 不 要 
认为 本 书 结束 了 。 一 旦 你 编写 了 代码 并 发 布 了 JAR 包 ， 乐 趣 才刚 刚 开 
始 。 从 现在 起 ， 你 将 了 解 如 何 规划 一 个 HBase 部 署 以 及 如 何在 生产 环境 
中 运行 HBase。 无 论 你 在 项 目 计 划 里 扮演 的 角色 是 项 目 经 理 还 是 网 络 管 
理 员 ， 我 们 都 希望 你 能 找到 你 所 需要 的 。 应 用 开发 人 员 也 会 找到 有 用 
的 资料 。 应 用 系统 的 性 能 相当 大 程度 上 取决 于 如 何 配置 客户 端 以 匹配 
你 的 集群 配置 。 当 然 ， 你 对 集群 的 工作 原理 了 解 得 越 多 ， 束 越 有 能 
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[1]. 在 http://o Mopentsdb. ee pi htmln 查 到 tsd HTTPAPI 的 文档 。 


时 参见 http://opentsdb.net/tcollector.html 。 


[3l. 更 多 网 下 参 见 https:// tii Constumbleuponasynchbase 
7 3 pd 站 当 柄 y 2 


https: ea 自行 查阅 。 
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。 如 果 你 认为 ee 很 灵巧 ， 请 看 看 这 个 系统 的 工作 原理 : 
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第 四 部 分 让 HBase 运 转 起 来 


这 一 部 分 的 两 章 则 在 帮助 你 把 HBase 应 用 系统 从 开发 原型 升格 为 
成 熟 的 生产 系统 。 

第 9 章 将 指导 你 如 何 为 HBase 集 群 提供 和 准备 硬件 。 你 可 以 参照 那 
些 建 议 为 应 用 系统 有 针对 性 地 部 署 和 配置 HBase。 

第 10 章 讲述 如 何在 生产 环境 中 成 功 地 建立 HBase 集 群 。 从 来 之 不 易 
的 性 能 配置 策略 到 健康 状态 监控 以 及 数据 备份 技术 ， 第 10 章 将 教 你 处 
理 在 HBase 生 产 集群 中 出 现 的 困难 场景 。 


第 9 章 部 署 HBase 


本 章 涵盖 的 内 容 

四 为 HBase 部 署 选择 硬件 

加 妆 装 、 配 置 和 启动 HBase 

四 在 云 山 部署 HBase 

晶 掌握 重要 的 配置 参数 

到 现在 为 止 ， 你 已 经 学 习 了 很 多 关于 HBase 系 统 的 知识 ， 以 及 如 何 
使 用 它 。 当 你 阅读 本 章 时 ， 我 们 希望 你 已 经 安装 了 HBase 的 单机 模式 ， 
并 且 摆 弄 过 客户 端 代码 。 一 个 闻 点 的 HBase 单 机 模式 只 能 进行 基本 操 
作 ， 通 常 在 学 习 如 何 使 用 系统 或 者 开发 应 用 时 会 采用 这 种 模式 。 单 机 
模式 不 能 处 理 真实 的 工作 负载 或 者 数据 规模 。 


当 计划 安装 一 个 完全 分 布 式 HBase 时 ， 你 必须 考虑 下 面 所 有 各 个 
组 件 : HBase Master、ZooKeeper、RegionServer 和 HDFS DataNode。 有 
时 这 个 列表 还 要 包括 MapReduce 框 架 。 每 个 组 件 对 硬件 资源 都 有 不 同 的 
需求 。 本 章 将 详细 介绍 所 有 组 件 的 硬件 需求 ， 以 及 怎样 为 完全 分 布 式 
HBase 安装 选择 硬件 ， 然 后 将 讨论 可 选 的 不 同 HBase 发 行 版 ， 以 及 在 
选择 一 种 发 行 版 而 不 是 另 一 种 时 应 该 考虑 的 因素 。 我 们 还 将 讨论 部 署 
策略 ， 以 及 在 规划 部 署 系统 的 架构 时 应 该 考虑 什么 内 容 。 

还 记得 云 计算 吗 ? 在 前 面 的 章节 中 我 们 避 而 不 谈 ， 但 是 现在 我 们 
会 讨论 它 。 在 你 安装 好 一 切 并 部 署 好 HBase 的 组 件 以 后 ， 你 还 需要 配置 
系统 。 我 们 将 讨论 重要 的 配置 参数 以 及 每 个 参数 的 含义 。 

注意 : 如 果 你 打算 构建 一 个 生产 系统 ， 你 很 可 能 要 和 系统 管理 员 
合作 ， 并 且 在 部 署 的 过 程 中 让 他 们 参与 进来 。 


9.1 规划 集群 


规划 一 个 HBase 集 群 包括 规划 压 层 的 Hadoop 集 群 。 本 市 我 们 将 强调 

选择 人 硬件 时 要 说 记 的 考虑 因素 ， 以 及 在 集群 中 怎样 部 署 各 个 角色 
(HBaseMaster、RegionServer、ZooKeeper 等 ) 。 其 中 ， 选 择 正确 的 硬 

件 是 部 署 的 关键 。 除 了 为 构建 使 用 HBase 的 应 用 系统 而 雇用 工程 师 之 
外 ， 硬 件 可 能 是 你 在 部 署 Hadoop 和 HBase 时 最 大 的 一 笔 投 资 。Hadoop 
和 HBase 可 以 在 商用 硬件 上 运行 。 但 是 商用 并 不 意味 着 低档 的 配置 。 这 
里 商用 的 舍 义 是 指 可 以 很 容易 从 多 家 片 商 那 里 得 到 不 算 特殊 的 零件 。 
换 句 话说 ， 你 不 需要 为 了 成 功 部 署 而 去 购买 顶级 的 企业 级 服务 器 。 

为 任何 应 用 选择 硬件 的 时 候 ， 你 都 必须 做 一 些 选 择 ， 诸 如 CPU 数 
量 、 内 存 大 小 、 人 硬盘 数量 和 大 小 等 。 对 HBase 部 署 来 说 ， 为 了 得 到 最 好 
的 性 能 和 投入 最 低 的 成 本 ， 对 所 有 这 些 资源 选择 正确 的 比例 是 很 重要 
的 。 如 果 一 个 集群 有 许多 CPU， 却 没有 足够 的 内 存 用 于 保存 缓存 或 者 


MemStore， 这 是 不 合适 的 。 这 种 情况 下 稍微 减少 CPU 的 数量 并 且 增 加 
内 存 可 能 是 一 个 更 好 的 选择 ， 而 成 本 是 一 样 的 。 

正如 你 到 现在 为 止 所 了 解 的 ， 在 HBase 部 署 里 有 许多 种 角色 。 每 种 
角色 都 有 特殊 的 人 硬件 需求 ， 其 中 有 一 些 角色 的 使 用 范围 比 其 他 的 更 为 
三 证 

硬件 的 选择 以 及 硬件 部 署 的 位 置 由 集群 的 规模 决定 。 在 25 个 忆 点 
以 内 的 集群 里 ， 在 一 个 下 点 上 运行 Hadoop JobTracker 和 NameNode 是 
很 常见 的 。 你 也 可 以 把 Secondary NameNode 放 在 那个 节点 上 ， 但 一 般 
推荐 把 它 分 开 部 署 。 大 于 25 个 下 点 的 集群 通常 有 专用 的 硬件 来 分 别 部 
署 Hadoop NameNode、JobTracker 和 Secondary NameNode。 不 要 认为 25 
是 个 魔力 数字 ， 它 只 是 在 规划 集群 的 时 候 在 考虑 方向 上 给 你 一 个 大 体 
的 指导 原则 。 

现在 让 我 们 把 HBase 考 虑 进来 。HBase RegionServer 几 乎 总 是 和 
Hadoop DataNode 并 行 部 署 在 一 起 的 。 当 规划 一 个 集群 的 时 候 ， 我 们 需 
要 考虑 服务 水 平 约 定 (SLA) ， 仔 细 地 规划 变 得 至 关 重 要 。 作 为 一 个 
总 体 原 则 ， 如 果 HBase 被 用 于 低 延 迟 工 作 人 负载 场合 ， 请 不 要 把 HBase 
RegionServer 和 Hadoop TaskTracker 并 行 部 署 在 一 起 。 如 果 你 的 使 用 场景 

` 会 用 到 MapReduce 人 作业， 根本 就 不 安装 MapReduce 框 句 是 一 个 更 好 的 

选择 也 就 是 说 ， 不 要 安装 JobTracker 和 TaskTracker。 如 果 既 有 
MapReduce 作 业 又 有 实时 工作 负载 ， 建 议 分 开 使 用 两 个 单独 的 集群 一 一 
一 个 运行 MapReduce 作 业 ， 男 一 个 运行 HBase。MapReduce 作 业 可 以 从 
远程 的 HBase 集群 读 取 数 据 。 当 然 ， 这 样 做 你 确实 失去 了 数据 的 本 地 
性 ， 每 个 作业 都 将 跨 网 络 传输 数据 ， 但 这 是 确切 保证 实时 工作 负载 的 
SLA 的 唯一 方法 。 

我 们 通常 不 推荐 同一 个 HBase 和 集群 同时 服务 于 MapReduce 和 实时 工 
作 人 负载。 如 果 你 一 定 要 那样 做 ， 请 务必 调 低 任务 (task) 数 ， 以 避免 压 
垮 HBase RegionServer。 男 外 建议 使 用 更 多 块 硬 盘 ， 这 样 可 以 跨 人 硬盘 分 


散人 负载 ， 这 有 助 于 绥 解 TO 争 用 问题 。 因 为 Map/Reduce 任 务 也 需要 内 
存 资源 ， 建 议 采用 更 大 内 存 。 

如 果 主 要 使 用 场景 是 基于 HBase 的 数据 运行 MapReduce 作 业 ， 那 么 
RegionServers 和 TaskTracker 并 行 部 署 在 一 起 也 是 可 以 接受 的 。 

现在 ， 让 我 们 研究 一 些 常 见 的 部 署 情景 以 及 如 何 规划 它们 。 通 常 
这 样 有 助 于 从 打算 部 署 的 集群 类 型 的 角度 出 发 进行 考虑 。 接 下 来 我 们 
将 列举 出 一 些 常见 的 集群 类 型 。 


9.1.1 原型 集群 


如 果 你 正在 构建 一 个 简单 的 原型 集群 ， 你 可 以 把 HBase Master 和 
Hadoop NameNode、JobTracker 并 行 部 署 在 同一 个 节点 上 。 如 果 Hadoop 
NameNode 和 JobTracker 已 经 分 开 运 行 在 不 同 下 点 上 的 话 ， 你 可 以 让 
HBase Master 和 它们 中 间 任 意 一 个 并 行 部 署 在 一 起 ， 这 样 承 可 以 了 。 
ZooKeeper 也 可 以 安装 在 这 些 节 点 上 。 

假如 你 把 Hadoop NameNode、JobTracker、HBase Master、 和 
ZooKeeper 运行 在 同一 个 六 点 上 ， 则 需要 一 个 拥有 足够 的 内 存 和 硬盘 的 
广 点 来 文 撑 这 个 人 负载。 一 个 原型 集群 很 可 能 少 于 10 个 节点 ， 这 时 HDFS 
的 容量 是 有 限 的 。 一 台 配 置 了 4~6 核 CPU、24~32 GB 内 存 和 4 块 SATA 
硬盘 的 机 恬 应 该 就 够 用 了 。 此 时 不 需要 有 见 余 电源 、SAS 人 硬盘 等 ， 对 于 
原型 集群 ， 也 不 需要 追求 系统 的 高 可 用 性 ， 所 以 先 省 点 钱 ， 以 便当 你 
的 应 用 系统 火 起 来 的 时 候 可 以 把 这 些 钱 投入 到 生产 集群 上 。 

小 结 叫 

卓 原型 集群 没有 严格 的 SLA， 所 以 宕 机 也 没 天 系 。 

罩 通常 少 于 10 个 节点 。 

曙 在 原型 集群 里 ， 多 个 服务 并 行 部 署 在 一 个 和 点 上 是 可 以 接受 的 。 

四 每 个 节点 4~6 核 CPU、24~32 GB 内 存 、4 块 硬盘 应 该 是 一 个 很 
好 的 初始 配置 。 在 这 里 我 们 假设 你 没有 把 MapReduce 和 HBase 并 行 部 署 


在 一 起 ， 如 采 你 只 把 该 集群 用 于 低 延 迟 访问 ， 那 么 这 是 运行 HBase 的 推 
存 方式 。 MapReduce 和 HBase 并 行 部 署 在 一 起 则 需要 更 多 的 CPU、 内 存 
和 硬盘 。 


9.1.2 小 型 生 10 一 20 台 


一 般 来 说 ，HBase 生 产 集群 不 应 该 少 于 10 个 节点 。 当 然 ，10 也 不 是 

一 个 魔力 数字 。 运 营 一 个 保证 性 能 和 严格 的 SLA 的 小 型 集群 是 很 难 的 
(这 个 说 法 更 多 地 基于 经 验 而 不 是 逻辑 ) 。 

在 小 型 生产 集群 里 ，Hadoop NameNode 和 JobTracker 依然 可 以 并 
行 部 署 在 一 起 。 两 个 服务 中 的 每 一 个 都 没有 足够 的 负载 来 要 求 额 外 的 
硬件 资源 。 但 是 倘若 你 需要 一 个 可 靠 的 系统 ， 你 需要 考虑 配置 比 原型 
集群 更 好 的 硬件 。 我 们 在 后 面 会 讨论 每 个 角色 类 型 的 典型 硬件 配置 。 

HBaseMaster 应 该 运行 在 它 目 己 的 硬件 上 ， 但 并 不 是 因为 它 承 担 了 
很 多 工作 。 把 它 从 运行 NameNode 和 JobTracker 的 机 器 上 分 离 出 来 是 为 
了 城 少 那个 节点 的 负载 。HBaseMaster 闻 点 可 以 使 用 比 那 两 个 服务 更 低 
等 级 的 人 硬件 配置 。 你 可 以 只 部 署 一 台 Master， 但 是 倘若 这 是 一 个 生产 系 
统 ，Master 有 克 余 更 好 一 些 。 因 此 ， 你 应 该 有 多 个 HBase Master， 每 个 
部 署 在 专用 的 硬件 上 。 

在 小 型 生产 集群 里 一 个 ZooKeeper 实 例 通常 就 足够 了 。ZooKeeper 
不 需要 做 资源 密集 型 的 工作 ， 可 以 把 它 部 署 在 档次 适中 的 人 硬件 上 。 你 
也 可 以 考虑 把 ZooKeeper 和 HBase Master 部 署 在 同一 台 主 机 上 ， 只 要 给 
ZooKeeper 一 个 专用 的 硬盘 来 写 数据 即 可 。 配 置 多 个 ZooKeeper 节 点 可 
以 提高 可 用 性 ， 不 过 对 于 小 型 集群 ， 你 不 可 能 期 望 很 高 的 业务 流量 ， 
用 一 个 ZooKeeper 实例 就 可 以 满足 系统 可 用 性 了 。 即 使 你 配置 了 多 个 
ZooKeeper ， NameNode 的 单 点 故障 依然 是 个 问题 。 

单个 ZooKeeper 和 HBase Master 实例 部 署 在 同一 个 节点 上 的 负面 影 
啊 是 限制 了 集群 的 可 维护 性 。 像 内 核 升级 、 小 规模 重启 等 ， 这 些 事情 


都 需要 系统 停机 。 但 是 在 小 型 集群 ， 配 置 超过 一 台 的 Zookeeper 和 
HBase Master 意 味 着 成 本 上 升 。 你 需要 作出 明智 的 选择 。 
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加 小 于 10 个 节点 的 集群 很 难 运 转 。 

四 在 部 署 生产 集群 的 时 候 ， 为 管理 和 点 配置 相对 好 一 点 的 硬件 。 双 
电源 供电 和 RAID 是 常见 选择 。 

加 没有 很 多 流量 和 工作 负载 的 小 型 生产 集群 可 以 让 不 同 的 服务 并 行 
部 嗜 在 一 起 。 

加 寺 于 小 型 集群 一 个 HBase Master 就 可 以 了 。 

加 x 对 于 小 型 集群 一 个 ZooKeeper 束 可 以 了 ， 并 且 可 以 和 HBase 
Master 并 行 部 署 在 一 起 。 如 果 运 行 NameNode 和 JobTracker 的 主机 足够 
强大 ， 也 可 以 把 ZooKeeper 和 HBase Master 部 署 在 那里 。 这 样 可 以 节省 
购买 额外 机 器 的 费用 。 

加 单个 HBase Master 和 ZooKeeper 会 限制 集群 的 可 维护 性 。 


9.1.3 中 型 生 50 人 台 上 了 上 


当 服务 名 扩展 到 比 小 规模 集群 更 大 的 数量 时 ， 和 情况 就 变 了 。 此 时 
集群 有 更 多 的 数据 、 更 多 执行 运算 的 服务 器 和 更 多 需要 管理 的 进程 。 
可 以 分 开 NameNode 和 JobTracker， 把 它们 部 署 在 专用 的 硬件 上 。 可 以 
继续 把 HBase Master 和 ZooKeeper 部 昔 在 同一 主机 上 ， 就 像 小 型 集群 部 
署 那 样 。Master 的 负载 不 会 随 着 集群 的 规模 线性 增长 ， 实 际 上 ，Master 
的 负载 不 会 增加 多 少 。 

在 小 规模 部 署 中 ， 单 个 ZooKeeper 实 例 就 可 以 满足 需要 。 随 着 部 署 
规模 的 扩展 ， 你 可 能 会 有 更 多 的 客户 端 线程 。 可 以 考虑 把 ZooKeeper 实 
例 的 数量 增加 到 3 个 。 为 什么 不 是 2 个 呢 ? 因 为 ZooKeeper 和 需要 奇数 个 实 
例 才 能 满足 做 出 决策 的 法 定 服务 器 数量 。 


小 结 


晶 在 生产 环境 中 ， 大 概 50 个 万 点 属于 中 型 集群 这 一 类 。 

晶 由 于 性 能 的 原因 ， 我 们 建议 不 要 并 行 部 署 HBase 和 MapReduce。 
如 果 你 的 确 需要 并 行 部 署 在 一 起 ， 请 把 NameNode 和 JobTracker 分 开 部 
团 到 不 同 的 机 右上 。 

四 建议 部 署 3 个 ZooKeeper 和 3 个 HBase Master 节 点 ， 尤 其 是 对 于 一 
个 生产 系统 而 言 。 如 果 你 不 需要 3 个 HBase Master 的 话 ，2 个 也 可 以 ; 
但 是 如 果 你 已 经 有 了 3 个 ZooKeeper 六 点 ， 并 且 ZooKeeper 可 以 和 HBase 
Master 共享 所 点， 增加 第 三 个 HBase Master 也 没 害处 。 


ZooKeeper 实 例 增 加 到 5 个 。HBase Master 和 ZooKeeper 仍 并 行 部 署 在 一 
起 。 这 样 HBase Master 也 部 署 5 个 。 请 确保 给 ZooKeeper 配 置 专用 的 便 
盘 来 写 数据 。 

当 你 研究 大 型 集群 部 署 时 ，Hadoop NameNode 和 Secondary 
NameNode 的 便 件 配置 方案 也 会 相应 改变 。 我 们 稍 后 会 讨论 这 一 点 。 

小 结 

加 保持 与 中 型 集群 的 部 署 方式 相同 ， 只 是 需要 5 个 ZooKeeper 实 
例 ， 仍 然 和 HBase Master 并 行 部 署 在 一 起 。 

四 傅 保 NameNode 和 Secondary NameNode 有 足够 的 内 存 ， 这 取决 于 
集群 的 存储 容量 。 


9.1.5 Hadoop Master 节点 


Hadoop NameNode、Secondary NameNode 和 JobTracker 通常 被 称 
为 Hadoop Master 进 程 。 正 如 你 前 面 看 到 的 ， 根 据 集群 的 规模 大 小 ， 这 
些 进程 要 么 部 署 在 一 起 ， 要 么 分 开 部 署 到 硬件 配置 相近 的 廊 点 上 。 所 
有 这 些 进程 都 是 单 进 程 ， 并 且 没 有 内 置 任何 故障 转移 /故障 恢复 策略 。 


因此 ， 你 需要 确保 部 署 的 硬件 尽 可 能 是 高 可 用 的 。 当 然 ， 你 也 不 要 走 
极端 ， 去 买 最 贵 的 硬件 系统 。 只 是 不 要 太 便 宜 束 可 以 了 |! 

对 于 运行 这 些 进程 的 和 点 ， 建 议 你 在 硬件 层面 上 为 各 个 组 件 做 些 
见 余 处 理 ， 如 双 电 源 、 质 量 有 保证 的 网 卡 和 RAID 人 硬盘 (可 能 的 话 ) 。 
在 NameNode 和 SecondaryNameNode 服 务 絮 上 使 用 RAID 1 硬盘 来 存储 元 
数据 是 常见 的 做 法 ， 尽 管 JBOD I 站 可 能 更 符合 需要 ， 因 为 NameNode 可 
以 把 元 数据 写 到 多 个 位 置 。 如 果 NameNode 上 保存 元 数据 的 人 硬盘 坏 了 ， 
并 且 你 没有 在 部 署 时 考 虚 见 余 或 者 备份 ， 你 的 集群 将 丢失 数据 ， 在 生 
产 环境 中 这 是 你 不 硕 望 经 历 的 事情 。 其 解决 方案 是 ， 要 么 使 用 RAID 1 
并 把 数据 写 在 这 种 硬盘 上 ， 要 么 使 用 多 块 硬 盘 并 配置 NameNode 把 数据 
写 到 多 块 硬 盘 上 。 为 了 把 元 数据 写 到 NameNode 服 务 絮 之 外 的 存储 恬 ， 
使 用 NFS 挂 载 作 为 NameNode 元 数据 的 备份 目录 也 是 常见 的 。 男 外 ， 这 
些 节点 的 操作 系统 也 需要 是 高 可 用 的 。 把 存放 操作 系统 的 人 硬盘 也 配置 
为 RAID1。 

NameNode 服 务 句 在 主 内 存 中 为 所 有 元 数据 提供 服务 ， 因 此 为 了 能 
够 寻 址 整个 命名 空间 时 你 需要 确保 有 足够 的 内 存 。 一 台 配 置 8 核 
CPU、 至 少 16 GB DDR3 RAM、1 Gb 双 以 太 网 卡 和 SATA 人 硬盘 的 服务 器 
应 该 足够 满足 小 规模 集群 的 需要 。 中 型 和 大 型 集群 可 以 扩展 额外 的 
RAM， 同 时 其 他 硬件 配置 保持 相同 。 通 常 中 型 集群 需要 增加 16 GB 
RAM， 大 型 集群 在 此 基础 上 再 增加 16 GB 内 存 ， 增 加 的 内 存 用 来 容纳 
由 于 更 高 存储 容量 带 来 的 更 多 元 数据 。 

Secondary NameNode 应 该 使 用 和 NameNode 相 同 的 硬件 配置 。 
Secondary NameNode 除 了 定时 检查 和 备份 元 数据 的 工作 之 外 ， 通 常 在 
NameNode 服 务 器 宕 机 的 时 候 它 也 是 你 临时 切换 使 用 的 服务 器 。 


9.1.6 HBase Master 


HBase Master 不 承担 很 重 的 负载 ， 并 且 为 了 故障 切换 的 目标 你 可 
以 部 署 多 个 Master。 由 于 这 两 个 因素 ， 为 HBase Master 配置 昂 贯 的 、 内 
置 隐 余 的 硬件 有 些 过 头 。 你 不 会 因此 得 到 太 多 好 处 。 

HBase Master 节点 服务 器 的 典型 硬件 配置 是 4 核 CPU、8~16 GB 
DDR3 RAM、2 块 SATA 硬盘 (一 块 用 于 操作 系统 ， 男 一 块 用 于 HBase 
Master 日 志 ) 和 1 块 1Gb 以 太 网 卡 。 通 过 使 用 多 台 HBase Master 来 构 
建 系统 见 余 ， 这 样 应 该 就 可 以 了 。 

小 结 

四 HBase Master 是 一 个 轻 量 级 进程 ， 不 需要 很 多 资源 ， 但 是 如 果 可 
能 的 话 ， 把 它 部 署 到 单独 的 硬件 上 是 明智 之 举 。 

加 9 以 配置 多 个 HBase Master 进 行 元 余 处 理 。 

四 4 核 CPU、8~16 GB RAM 和 2 块 硬盘 对 HBase Master 世 点 来 说 足 
人 够 了 。 


9.1.7 Hadoop DataNode 和 HBase RegionServer 


Hadoop DataNode 和 HBase RegionServer 在 系统 中 通常 被 称 为 工作 
节点 (slavenode) 。 因 为 在 系统 架构 中 有 内 建 的 见 余 处 理 ， 它 们 不 像 
管理 让 点 (Master node) 那样 需要 昂贵 的 硬件 。 所 有 的 工作 忆 点 是 相 
同 的， 它们 中 的 任 一 世 点 都 能 奉 代 其 他 节点 的 功能 。 工 作 和 点 的 职责 
是 存储 HDFS 数 据 ， 执 行 MapReduce 计 算 ， 以 及 为 来 自 HBase 
RegionServer 的 请 求 提 供 服务 。 为 了 能 够 很 好 地 完成 这 些 工作 ， 它 们 需 
要 足够 的 RAM、 硬 盘 和 CPU 核 。 记 住 ， 商 用 并 不 意味 着 低档 配置 ， 而 
是 代 之 以 中 等 质量 的 硬件 。 没 有 一 种 硬件 配置 对 所 有 工作 负载 都 是 最 
优 的 ， 有 的 工作 负载 是 内 存 密 集 型 的 ， 而 另外 一 些 工作 负载 是 CPU 窗 
集 型 的 。 例 如 ， 归 档 存储 类 型 工作 负载 ， 它 们 便 不 需要 很 多 CPU 资 
源 。 


HBase RegionServer 是 内 存 仿 禁 型 的 ， 可 以 轻松 消耗 掉 你 给 的 所 有 
RAM 。 但 这 并 不 意味 着 你 要 给 RegionServer 进 程 分 配 30 GB 的 堆 空 间 。 
否则 你 会 迅速 进入 stop-the-world 垃圾 收集 器 (garbage collector) ， 然 
后 你 的 系统 马上 月 尝 。 记 住 ，HBase 是 对 延迟 敏感 的 ， 而 stop-the-world 
起 圾 回收 是 它 的 克星 。 按 照 经 验 判 断 ， 为 RegionServer 分 配 10~15GB 
堆 内 存 时 表现 恨 好 ， 不 过 你 应 该 针对 你 的 工作 负载 进行 测试 以 找 出 最 
优 值 。 如 果 你 正在 运行 的 是 HBase (当然 还 有 HDFS) ， 工 作 节点 需要 
为 DataNode、RegionServer、 操 作 系统 和 其 他 进程 〈 监 控 代 理 等 ) 配置 
8 一 12 核 CPU“。 再 加 上 24~32GB 内 存 和 12 块 1 TB 硬盘 ， 这 样 应 该 台 可 以 
了 。 在 服务 器 上 增加 额外 的 内 存 总 是 没有 坏处 的 ， 可 以 用 做 文件 系统 
的 缓存 。 

注意 ， 这 里 并 没有 运行 MapReduce。 如 果 你 选择 在 同样 的 集群 上 
由 运行 MapReduce， 需 要 额外 增加 6~8 核 CPU 和 24GB 内 存 的 配置 。 一 
般 来 说 ， 每 个 MapReduce 任 务 需要 大 约 2~3GB 内 存 和 至 少 1 核 CPU 。 
让 每 个 下 点 使 用 很 高 的 存储 密度 〈 像 12 块 2 TB 人 硬盘) 会 导致 不 太 合 适 
的 表现 ， 例 如 在 一 个 节点 发 生 故 障 时 需要 复制 大 量 数据 。 

小 结 

加 DataNode 和 RegionServer 总 是 并 行 部 署 在 一 起 。 它 们 为 吞吐 量 
提供 服务 。 请 避免 在 相同 的 和 点 上 运行 MapReduce。 

四 8 一 12 核 CPU、24~-32GBRAM、12 块 1 TB 硬盘 是 一 个 良好 的 初 

台 化 配置 。 

四 为 了 得 到 更 高 的 存储 密度 ， 你 可 以 增加 硬盘 数量 ， 但 是 不 要 加 得 
太 多 ， 否 则 在 节点 或 硬盘 故障 时 复制 副本 会 很 耗 时 。 

建议 : 选择 大 量 的 配置 合理 的 服务 器 ， 而 不 是 少量 的 性 能 强大 的 
服务 器 。 


9.1.8 ZooKeeper 


和 HBase Master 一 样 ，ZooKeeper 也 是 个 相对 轻 量 级 的 进程 。 但 
是 ZooKeeper 比 HBase Master 对 延迟 更 敏感 。 因 此 ， 我 们 推荐 给 
Zookeeper 配置 专用 的 硬盘 写 数 据 。ZooKeeper 在 内 存 里 提供 所 有 服 
务 ， 不 过 它 也 要 把 数据 持久 化 存储 到 硬盘 ， 如 果 写 硬盘 很 慢 (由 于 WO 
争 用 ) 的 话 ， 这 将 降低 ZooKeeper 的 性 能 。 

除 此 以 外 ，ZooKeeper 不 需要 很 多 硬件 资源 。 你 可 以 简单 使 用 与 
HBase Master 一 样 的 硬件 配置 就 可 以 了 。 

小 结 

加 ZooKeeper 是 轻 量 级 进程 ， 但 是 对 延迟 很 敏感 。 

加 如 年 :打算 单独 部 署 ZooKeeper， 选 择 与 HBase Master 类 似 的 硬件 
束 可 以 了 。 

四 HBase Master 和 ZooKeeper 可 以 并 行 部 署 在 一 起 ， 只 要 确保 
ZooKeeper 有 专用 的 硬盘 来 持久 化 存储 数据 即 可 。 如 采 并 行 部 署 在 一 
起 ， 那 么 需要 在 HBase Master 的 配置 基础 上 增加 一 块 硬盘 (给 
ZooKeeper 持 久 化 存储 数据 ) 。 


9.1.9 A 怎 2 


我 们 已 经 讨论 了 HBase 的 各 个 组 件 ， 并 且 讨 论 了 提供 什么 硬件 能 
够 使 它们 的 性 能 最 优 。 最 近 ， 由 于 云 服务 提供 给 用 户 的 灵活 性 ， 云 服 
务 (cloud) 正在 变 得 流行 。 在 HBase 的 语 境 中 ， 我 们 认为 云 服务 只 是 
另外 一 种 具有 不 同 成 本 模型 的 硬件 选择 。 这 可 能 是 一 个 狭义 的 看 法 ， 
但 是 让 我 们 先 这 么 开始 。 重 要 的 是 ， 了 解 这 种 云 服务 能 够 提供 的 各 种 
特性 ， 以 及 从 部 署 生 产品 质 的 HBase 实 例 的 角度 看 有 何 含义 。 

目前 ， 在 云 基 础 设施 领域 最 大 的 (最 早 的 ) 参与 者 是 Amazon Web 
Services (AWS) 。 其 他 一 些 参与 者 是 Rackspace 和 Microsoft。AWS 最 
流行 ， 有 些 人 已 经 将 HBase 部 署 在 AWS 上 。 我 们 还 没有 看 到 部 署 在 
Rackspace 和 Microsoft 上 的 实例 。 可 能 因为 那些 部 署 是 顶级 秘密 ， 还 没 


有 公开 分 享 ， 只 是 我 们 不 知道 ! 至 于 这 一 节 ， 我 们 将 更 多 关注 AWS 提 
供 的 东西 ， 并 有 旦 希望 我 们 讨论 的 大 部 分 内 容 对 于 其 他 提供 商 也 能 适 
用 o 

从 规划 HBase 部 署 的 背景 看 ，AWS 提 供 了 3 种 相关 的 服务 ， 即 
Elastic Compute Cloud (EC2) 、Simple Storage Service (S3) 和 Elastic 
Block Store (EBS，http://aws.amazon. com/ebs/) 。 正 如 你 可 能 意识 到 
的 ， 你 需要 使 用 干净 的 服务 器 来 部 署 HBase， 而 EC2 就 是 提供 虚拟 服 
务 器 的 服务 。AWS 有 很 多 可 用 的 虚拟 机 配置 选项 (实例 类 型 参考 
http://aws. amazon.com/ec2/#instance) ， 并 且 还 在 不 断 增 加 选项 。 我 们 
建议 使 用 至 少 16 GBRAM、 足 够 的 计算 和 存储 资源 的 虚拟 机 实例 。 这 
里 说 的 有 些 含糊 ， 但 考虑 到 这 种 情况 日 狐 月 异 的 变化 趋势 ， 等 你 读 到 
本 书 这 一 节 的 时 候 ， 很 可 能 会 有 比 我 们 在 这 里 提 到 的 最 好 的 东西 还 要 
好 的 新 东西 出 来 了 。 

总 的 来 说 ， 请 遵循 如 下 建议 。 

四 至 少 配 置 16 GBRAM 。HBase RegionServer 很 耗 内 存 ， 但 是 又 不 
能 给 它 配 置 太 大 内 存 ， 否 则 会 遇 到 Java 垃圾 回收 问题 。 本 章 后 面 我 们 
将 讨论 如 何 优 化 垃圾 回收 。 

加 配置 尺 可 能 多 的 硬盘 。 大 部 分 EC2 实例 在 写 数据 时 没有 提供 多 块 
人 硬盘。 

四 网 络 囊 宽 越 大 越 好 。 

卓 根据 个 人 的 使 用 场景 配置 充足 的 计算 资源 。MapReduce 作业 比 
简单 的 网 站 服务 数据 库 需 要 更 多 的 计算 能 

有 些 EC2 实例 是 完整 的 机 句 ， 这 种 物理 服务 絮 不 是 个 多 种 实例 共 
享 的 。 这 种 实例 大 部 分 更 适合 HBase 其 至 Hadoop。 当 一 个 物理 服务 器 被 
多 个 实例 共享 时 ， 访 问 频繁 的 邻居 实例 可 能 会 严重 影响 性 能 。 如 有 果 邻 
居 实 例 在 执行 密集 的 人 硬盘 VO 操作 ， 与 一 个 访问 较 少 的 邻 拓 实例 相 比 ， 
你 需要 启用 更 多 的 实例 并 且 可 能 在 实例 上 得 到 很 低 的 VO 性 能 。 


当 讨论 云端 的 Hadoop 或 HBase 的 时 候 ， 你 会 经 常 听 到 人 们 谈论 S3 
和 EBS。 我 们 也 将 在 这 里 讨论 它们 。S3 是 一 种 持久 可 靠 的 文件 存储 服 
务 。 通 过 在 HBase 表 上 运行 导出 作业 并 且 把 导出 的 数据 写 到 S3 上 ， 可 
以 用 它 备 份 HBase。 另 一 方面 ，EBS 可 以 被 附加 作为 EC2 实 例 的 远程 硬 
盘 卷 ， 为 EC2 实 例 提供 外 部 持久 化 存储 。 如 果 你 发 现 HBase 集 群 启动 和 
停止 非常 频繁 ， 这 种 服务 就 能 派 上 用 场 。 你 可 能 把 HDFS 完全 存储 在 
EBS 上 ， 然 后 在 想 停止 HBase 实例 ， 市 省 一 些 钱 的 时 候 ， 停 止 EC2 实 
例 。 当 恢复 HBase 实 例 时 ， 只 需要 提供 新 的 EC2 实 例 ， 然 后 挂 载 相 同 的 
EBS 卷 ， 启 动 HadoopP 和 HBase 就 可 以 了 。 这 种 做 法 涉及 复杂 的 自动 化 脚 
本 。 

现在 ， 你 知道 了 云 服 务 的 配置 选项 以 及 如 何 选 择 使 用 它们 ， 在 云 
端 部 署 HBase 时 ， 多 方 听取 赞成 和 反对 的 论点 是 很 重要 的 。 你 会 听 到 
人 们 旗帜 鲜明 的 意见 ， 我 们 会 尽力 把 争论 限制 在 单纯 的 事实 和 它们 的 
ee 

卓 成 本 一 一 云 服 务 采用 随 用 随 付 的 成 本 模型 。 这 样 有 好 也 有 坏 。 在 
开始 使 用 HBase 之 前 ， 你 不 必 投 资 一 大 笔 钱 预先 购买 硬件 。 你 可 以 准 
备 一 些 实例 ， 按 小 时 付费 ， 然 后 把 软件 安装 到 上 面 。 如 果 你 在 运行 
24x7 的 集群 ， 请 计算 一 下 费用 。 在 云端 的 实例 可 能 反而 比 在 自己 的 数 
据 中 心 或 者 共享 的 数据 中 心里 配置 便 件 更 贵 。 

四 易 用 性 一 一 云 服 务 提 供 的 实例 只 要 调用 几 个 API 束 可 以 完成 。 
为 了 得 到 部 署 HBase 的 前 几 个 实例 ， 你 不 需要 通过 公司 可 能 遵循 的 硬 
件 采 购 流 程 。 如 有 果 节 点 宕 机 ， 多 启用 一 些 就 可 以 了 。 一 切 就 这 么 简 
单 。 

加 运 维 一 一 如 果 你 必须 自己 购买 硬件 ， 那 你 还 要 买 机 架 、 电 源 及 网 
络 设备 。 运 行 维护 这 些 设备 需要 一 些 人 力 资源 ， 为 此 你 还 需要 招 兵 买 
马 。 运 行 维护 服务 器 、 机 架 和 数据 中 心 可 能 不 是 你 的 核心 能 力 ， 可 能 


也 不 是 你 想 投资 的 地 方 。 如 果 你 使 用 AWS，Amazon 将 为 你 做 那些 工 
作 ， 并 且 该 公司 在 这 些 方面 拥有 民 好 的 记录 。 

四 可 靠 性 一 一 EC2 实例 不 像 你 购买 的 专用 硬件 那么 可 蚕 。 我 们 亲眼 
看 见 过 一 些 实例 随机 挂 掉 ， 而 没有 任何 暗示 问题 的 性 能 下 降 过 程 。 随 
痢 时 间 变 化 ， 可 靠 性 问题 会 有 所 改善 ， 但 仍然 不 能 同 你 买 的 专用 机 升 
相 比 。 

昌 催 辽 定制 能 你 必须 从 AWS 提供 的 实例 类 型 中 选择 ， 而 不 
能 根据 你 的 使 用 场景 定制 。 如 果 目 己 购 买 便 件 ， 你 可 以 定制 它 。 例 
如 ， 如 果 你 只 是 以 档案 的 方式 存储 大 量 数 据 ， 那 么 你 需要 配置 高 密度 
存储 ， 而 不 是 很 多 计算 能 力 。 但 是 ， 如 采 你 想 执行 很 多 计算 任务 ， 你 
必须 反 过 来 ， 需 要 在 每 个 方 点 配置 更 多 计算 能 力 ， 而 减少 存储 密度 。 

加 性 能 一 一 虚拟 化 不 是 没有 代价 的 。 你 要 在 性 能 上 付出 代价 。 一 些 
虚拟 化 类 型 比 其 他 的 会 好 些 ， 但 是 没有 性 能 不 受 影 响 的 情况 。 对 便 盘 
IO 的 影响 比 其 他 因 和 又 会 更 多 些 ， 而 这 一 点 对 HBase 影 啊 最 大 。 

晶 安全 性 一 一 调查 云 服务 提供 商 给 出 的 安全 保证 。 有 时 候 对 于 人 敏感 
数据 这 是 个 问题 ， 你 可 能 想 拥 有 自己 管理 的 硬件 ， 并 且 保 证 其 安全 
性 。 

记 住所 有 这 些 建议 ， 做 出 你 的 硬件 选择 决定 。 归根结底 ， 一 切 都 
取决 于 成 本 ， 我 们 建议 根据 每 存储 单位 数据 的 支出 或 者 每 个 读 写 操作 
的 支出 来 评判 成 本 。 这 些 数 字 很 难 计算 出 来 ， 但 在 你 选择 购买 专用 硬 
件 还 是 公有 云 服 务 时 ， 它 们 将 给 你 所 需要 的 洞察 力 。 一 旦 你 做 出 决 
定 ， 要 么 购买 硬件 ， 要 么 租用 云 实例 ， 接 下 来 距 该 部 署 软件 了 。 


9.2 部 署 软件 


管理 和 部 署 服 务 右 集群 ， 尤 其 是 在 生产 环境 里 ， 是 一 件 不 简单 的 
事情 ， 和 需要 谨慎 从 事 。 在 管理 和 部 署 的 过 程 中 ， 会 面临 各 种 各 样 的 挑 


战 ， 我 们 将 在 这 里 列举 出 一 些 主 要 的 挑战 。 这 些 挑战 并 不 是 说 不 能 解 
决 ， 或 者 人 们 还 没有 解决 ， 而 是 说 它们 不 能 被 忽视 。 

在 部 署 大 批 机 器 的 时 候 ， 我 们 建议 你 尽 可 能 目 动 化 部 署 过 程 ， 这 
样 做 有 几 个 原因 。 第 一 ， 你 不 用 在 所 有 需要 安装 的 机 器 上 重复 同样 的 
过 程 ， 第 二 ， 在 添加 新 市 点 到 集群 的 时 候 ， 你 不 用 手工 确保 新 节点 被 
正确 安装 。 理 想 的 做 法 是 让 一 个 自动 化 系统 为 你 完成 所 有 这 些 工作 ， 
大 部 分 公司 都 采用 了 这 样 形式 或 那样 形式 的 目 动 化 系统 。 有 些 公司 使 
用 日 主 开发 的 脚本 ， 而 其 他 公司 则 采用 开源 解决 方案 ， 如 Puppet 

(http://puppetlabs.com/) 或 者 Chef (www.opscode.com/chef/) 。 还 有 一 
些 商 业 版 权 工 具 ， 如 HP Opsware。 如 果 你 是 在 云端 部 署 ， 可 以 使 用 
Apache Whirr (http://whirr.apache.org) 这 样 的 框架 来 帮忙 ， 轻 松 启动 和 
配置 你 的 虚拟 机 实例 。 使 用 任何 这 些 框 架 ， 你 可 以 创建 自 定 义 的 清单 / 
方法 /配置 ， 这 些 框架 使 用 它们 来 配置 和 部 署 运 行 它们 的 服务 硕 。 它 们 
将 安 猴 操作 系统 ， 并 且 安 装 和 管理 各 种 软件 包 ， 包 括 Hadoop 和 HBase。 
它们 也 有 助 于 集中 管理 配置 ， 这 正 是 你 希望 的 。 

像 Cloudera Manager 这 样 的 专业 工具 是 为 管理 Hadoop 和 HBase 而 专 
门 设 计 的 。 这 些 工 具 拥 有 很 多 专门 和 针对 Hadoop 的 管理 特性 ， 是 通用 软 
件 包 管理 框架 所 没有 的 。 

详细 讨论 所 有 这 些 工 具 超 出 了 本 书 的 范围 ， 我 们 的 目标 是 把 部 署 
时 考虑 的 所 有 方法 介绍 给 你 。 我 们 先 投 入 精力 在 其 中 一 种 框架 上 ， 随 
着 时 间 推 黎 ， 运 营 集 群 的 技术 将 变 得 越 来 越 简 单 。 


一 


9.2.1 Whirr: 六) 


如 采 打 算 在 云端 部 署 HBase， 你 应 该 使 用 Apache Whirr， 计 事情 变 
得 简单 一 些 。Whirr 0.7.1 不 支持 HBase 0.92， 但 是 你 可 以 使 用 下 面 列 出 
的 方法 在 集群 上 运行 CDH3。 这 里 给 出 的 方法 适用 于 AWS EC2 上 的 集 
群 ， 并 且 假 设 你 把 公 钥 (access key) 和 密 钥 (secret key) 设置 为 环境 


变量 (AWS_ACCESS_KEY _ID 和 AWS_SECRET_ ACCESS_KEY) 。 
你 可 以 把 这 种 方法 存 为 一 个 文件 ， 如 my_cdh_recipe， 然 后 把 它 作 为 一 
个 配置 文件 传递 给 Whir 脚 本 ， 见 代码 清单 9-1。 

代码 清单 9-1 通过 Whirr 方 法 (命名 为 my_cdh_recipe 的 文件 ) 启动 
CDH3 集 群 


$9 wat my Cah recipe 


whirr.cluster-name=ak-cdh-hbase 
whirr.instance-templates=1 zookeeper+hadoop-namenode+hadoop-jobtracker+hbase- 
master, 
5 hadoop-datanode+hadoop-tasktracker+hbase-regionserver 
hbase-site.dfs.replication=3 
whirr.zookeeper.install-function=install cdh zookeeper 
whirr.zookeeper.configure-function=configure cdh zookeeper 
whirr.hadoop.install-function=install cdh hadoop 
whirr.hadoop.configure-function=configure cdh hadoop 
whirr.hbase.install-function=install cdh hbase 
whirr.hbase.configure-function=configure cdh hbase 
whirr.provider=aws-ec2 
whirr.identity=$ {env:AWS ACCESS KEY_ID} 
whirr.credential=$ {env:AWS SECRET ACCESS KEY} 
whirr.hardware-id=ml .xlarge 
# Ubuntu 10.04 LTS Lucid. See http://cloud.ubuntu.com/ami/ 
whirr.image-id=us-east-1/ami-04c9306d 
whirr.location-id=us-east-1 


可 以 使 用 这 些 方法 局 动 集群 ， 如 下 所 示 : 


bin/whirr launch-cluster --config my cdh recipe 


在 集群 启动 起 来 以 后 ， 可 以 使 用 list 命 令 列 出 构成 集群 的 节点 : 


bin/whirr list-cluster --config my cdh recipe 


us-east-1/i-48c4e62c us-east-1/ami-04c9306d 23.20.55.128 

RUNNING us-east-1a Zookeeper, hadoop-namenode, 

hadoop-jobtracker, hbase-master 

us-east-1/i-4ac4e62e us-east-1/ami-04c9306d 50.17.58.44 
10.188..221 .223 

RUNNING us-east-1la hadoop-datanode, 

hadoop-tasktracker, hbase-regionserver 

us-east-1/i-54c4e630 us-east-1/ami-04c9306d 107.21.147.166 

RUNNING us-east-1la hadoop-datanode, 

hadoop-tasktracker,hbase-regionserver 

us-east-1/i-56c4e632 us-east-1l/ami-04c9306d 107.21.77.75 
TO L188 T08229 

RUNNING us-east-1la hadoop-datanode, 

hadoop-tasktracker, hbase-regionserver 

us-east-1/i-50c4e634 us-east-1/ami-04c9306d 184.72.159.27 

RUNNING us-east-1la hadoop-datanode, 

hadoop-tasktracker, hbase-regionserver 

us-east-1/i-52c4e636 us-east-1l/ami-04c9306d 50.16.129.84 

RUNNING us-east-1a hadoop-datanode, 


hadoop-tasktracker, hbase-regionserver 


L088.69.151 


T1044=L895L07 


L044a229190 


10.4,1298. 二 73 


用 集群 完成 任务 后 ， 如 果 想 关闭 它 ， 可 以 使 用 destroy-cluster 命 


~ MN A 


bin/whirr destroy-cluster --config my cdh recipe 


9.3 发 行 版 本 


本 节 将 研究 在 集群 上 安装 HBase。 这 并 不 是 构建 成 熟 产品 部 嗜 的 参 


考 指南 ， 但 这 是 为 你 的 应 用 进行 完全 分 布 式 安 装 的 起 点 。 让 HBase 运 转 

起 来 需要 做 更 多 的 工作 ， 我 们 在 第 10 章 会 研究 其 中 各 个 方面 。 
市 面 上 有 很 多 种 HBase 发 行 套件 (或 是 软件 包 ) ， 并 且 每 种 有 多 个 

版 本 。 目 前 最 有 名 的 发 行 套件 是 原生 的 Apache 发 行 套件 和 Cloudera 公 司 


的 CDH 。 
国 Apache 


Apache HBase 项 目 是 所 有 HBase 开发 的 父 项 目 。 所 


有 代码 都 集中 到 那里 ， 各 个 公司 的 开发 着 给 它 贡献 代码 。 和 其 他 开源 


项 目 一 样 ， 版 本 发 行 周期 取决 于 参与 者 〈 也 就 是 雇佣 开发 人 员 从 事项 
目 开 发 的 公司 ) 和 他 们 想 把 什么 特性 放 进 一 个 特定 的 版 本 。 一 般 来 


说 ，HBase 社区 和 它们 的 版 本 是 保持 一 致 的 。 其 中 值得 注意 的 版 本 包 
括 0.20.x、0.90.x、0.92.x 和 0.94.x。 本 书 专注 于 0.92.x。 

加 Cloudera 公 司 的 CDH 一 一 Cloudera 是 一 家 在 生态 系统 中 有 自己 发 
行 版 本 的 公司 ， 包 括 Hadoop 和 其 他 模块 (包含 HBase) 。 这 个 套件 被 称 
为 CDH (Cloudera’s distribution including Apache Hadoop) 。CDH 建立 
在 Apache 的 代码 基础 上 ， 采 用 了 特殊 发 行 版 本 ， 并 在 里 面 添 加 了 没有 
包含 在 任何 Apache 官方 发 行 版 本 中 的 许多 补丁 。Cloudera 也 根据 客户 
需求 添加 额外 的 特性 。 在 Apache 代 码 基础 里 的 补丁 不 一 定 出 现在 CDH 
所 基于 的 同一 代码 基础 分 文 里 。 

我 们 推荐 使 用 Cloudera 的 CDH 人 套件 。 通 常 它 比 原生 的 Apache 发 布 版 
包含 更 多 补丁 ， 用 来 增加 稳定 性 、 改 善 性 能 、 有 时 候 增 加 功能 特性 。 
CDH 也 比 Apache 版 本 被 更 好 地 测试 过 ， 并 且 比 原生 Apache 运 行 在 更 多 
的 生产 集群 上 。 在 你 为 集群 选择 发 行 版 本 前 ， 我 们 建议 考虑 这 些 要 
占 。 

对 于 提供 的 安装 步 又， 我 们 假设 你 已 经 安装 了 Java、Hadoop 和 
ZooKeeper。 关 于 安装 Hadoop 和 ZooKeeper 的 操作 指南 ， 请 参考 你 选择 
的 发 行 版 本 的 文档 。 


9.3.1 使 用 原生 Apache 发 行 版 本 


要 安装 原生 Apache 版 本 ， 需 要 下 载 tar 压 缩 包 ， 然 后 把 它们 安装 到 
你 选择 的 目录 里 。 许 多 人 创建 一 个 专门 用 户 来 运行 所 有 的 守护 进程 ， 
并 且 把 文件 夹 放 到 那个 用 户 的 主 目录 里 。 但 我 们 一 般 建 议 安 装 
到 /usr/local/lib/hbase 目 录 ， 并 且 把 它 作 为 HBase 主 目录 ， 这 样 所 有 用 户 
都 能 访问 到 里 面 的 文件 。 

在 HBase 主 页 上 有 详细 的 安装 指导 ， 并 且 有 时 候 不 同 版 本 会 有 所 不 
同 。 总 之 ， 我 们 列 出 遭 循 鸭 安 狠 步骤 ， 如 下 所 示 。 这 些 步 骤 专 门 针 对 
0.92.1 版 本 ， 不 过 你 可 以 使 用 你 想 用 的 任何 版 本 。 


(1) 从 一 个 Apache 镜像 网 站 下 载 tar 压缩 包 。 对 于 0.92.1 版 本 ， 
压缩 包 的 名 字 是 hbase-0.92.1.tar.gz: 
cd /tmp 
wget http://mirrors.axint .net/apache/hbase/hbase-0.92.1/ 
hbase-0.92.1.tar.gz 
mv /tmp/hbase-0.92.1.tar.gz /usr/local/lib 
(2) 切换 到 root 用 户 ， 解 压 压缩 包 到 /usr/local/lib 目录 下 ， 并 创 
建 一 个 符号 链接 从 /usr/local/lib/hbase 指 向 新 创建 的 目录 。 这 样 ， 你 可 以 
把 $bHBASE_HOME 环 境 变量 定义 为 /usr/local/lib/hbase 目 隶 ， 它 将 指 到 当 
前 的 安装 目录 : 
ta XVvEZ hbase=0 .92.T.targz 
cd /usr/local/lib 
ln -s hbase-0.92.1 hbase 


就 这 些 。 现 在 你 需要 做 各 种 配置 ， 一 切 准 备 好 了 ! 


9.3.2 Cloudera 的 CDH 发 行 


CDH 的 当前 发 行 版 本 是 CDH4u0， 它 基于 Apache 0.92.1 版 本 。 它 
的 安装 命令 和 环境 有 关 ， 基 本 步骤 如 下 所 示 。 
(1) 把 CDH 库 添 加 到 你 的 系统 。 如 果 你 使 用 Red Hat 系列 的 系 
统 ， 可 以 使 用 yum 软 件 包 管理 工具 : 


cd /etc/yum.repos.d 
wget http://archive.cloudera.com/cdh4/redhat/6/x86 64/cdh/ 
cloudera-cdh4 .repo 


如 有 条 你 使 用 Debian/Ubuntu 系 列 的 系统 ， 则 可 以 使 用 apt 软 件 包 管理 
王 具 : 


wget http://archive.cloudera.com/cdh4/one-click-install/precise/amd64/ 
cdh4-=-repository 1.0 all.deb 
sudo dpkg -i cdh4-repository 1.0 all.deb 


在 Cloudera 的 文档 网 站 上 可 以 找到 详细 的 特定 环境 的 安装 指南 ， 
参见 http:/mng.bz/ukS3 。 


(2) 安装 HBase 软 件 包 。 在 CDH4 中 该 软件 包 的 名 字 分 别 是 
hbase、hbase-master 和 hbase-regionserver。hbase 软 件 包 包含 HBase 的 二 
进 制 文 件 。 其 他 两 个 软件 包 分 别 包 含 用 于 帮助 你 启动 和 停止 Master 和 
RegionServer 进 程 的 init 脚 本 。 


下 面 命令 用 于 在 Red Hat 系 列 的 系统 上 安装 HBase: 
sudo yum install hbase 


sudo yum install hbase-master 
sudo yum install hbase-regionserver 


而 下 面 这 些 命令 用 于 在 Debian/Ubuntu 系 列 的 系统 上 安装 HBase: 
sudo apt-get install hbase 


sudo apt-get install hbase-master 
sudo apt-get install hbase-regionserver 


安装 这 些 软件 包 将 把 库 文件 放 到 /usrNib/hbase/ 目 录 下 ， 把 配置 文件 
放 到 /etc/hbase/conf/ 目 录 下 。 用 来 启动 和 停止 Master 和 RegionServer 进 程 
的 init 肢 本 分 别 是 /etc/init.d/hbase-master 和 /etc/ init.d/hbase-regionserver ° 

注意 ， 你 不 必 在 所 有 节点 上 安装 Master 和 RegionServer 的 脚本 。 只 
需要 在 所 有 工作 节点 (slave node) 上 安装 hbase-regionserver 软件 包 ， 
以 及 在 运行 HBase Master 进 程 的 节点 上 安装 hbasemaster 软 件 包 。 因 为 
hbase 软 件 包 包 含 了 实际 的 二 进 制 文 件 ， 所 以 它 需 要 被 安装 在 所 有 节点 
上 o 


9.4 配置 


部 署 HBase 需 要 配置 Linux、Hadoop， 当 然 还 有 HBase。 有 些 配 置 
直截了当 ， 可 以 基于 多 个 生产 部 署 的 经 验 给 出 建议 。 但 有 些 配置 更 多 
是 反复 试验 ， 取 决 于 使 用 场景 和 HBase 部 署 所 服务 的 SLA。 没 有 一 套 通 
用 的 配置 对 所 有 场景 适用 ， 在 生产 环境 中 最 终 确 定 运 行 方式 来 支撑 你 
的 应 用 之 前 ， 很 可 能 你 会 多 次 改动 一 些 配置 。 


为 了 以 最 优 方式 配置 系统 ， 重 要 的 是 了 解 各 个 参数 以 及 采用 这 种 
或 者 那 种 方式 优化 它们 的 含义 。 本 和 会 让 你 深入 了 解 一 些 在 部 署 
HBase 实例 时 很 可 能 会 用 到 的 、 重 要 的 配置 参数 。 首 先 研究 HBase 特 有 
的 配置 参数 ， 然 后 再 研究 影响 HBase 安 装 的 Hadoop 和 Linux 的 相关 配置 


参数 。 
9.4.1 HBase 配置 


束 像 Hadoop 一 样 ，HBase 需 要 考虑 两 方面 配置 。 一 方面 是 针对 
Linux 的 特定 配置 ( 即 环境 配置 ) ， 这 不 同 于 我 们 将 在 后 面 解释 的 操作 
系统 层级 的 配置 。 另 一 方面 是 针对 HBase 守 护 进程 的 配置 ， 这 些 配置 在 
局 动 时 会 被 守护 进程 读 取 。 

在 HBase 集群 中 ， 配 置 文件 的 位 置 取决 于 你 使 用 的 安装 版 本 。 如 
果 你 使 用 Apache 发 行 版 本 ， 配 置 文 件 保存 在 $bHBASE_HOME/conf/ 目 录 
下 ; 如 采 你 使 用 CDH 发 行 版 本 ， 它 们 则 保存 在 /etc/hbase/conf/ 目 录 下 。 
一 般 来 说 ， 我 们 建议 在 处 理 权限 许可 和 文件 位 置 时 ， 与 你 所 在 的 公司 
的 最 佳 实践 保持 一 致 。CDH 遵 守 标 准 的 Tinux 目 孙 结 构 ， 相 应 地 存放 配 
置 文件 。 这 种 做 法 可 以 被 大 多 数 系 统管 理 员 和 IT 部 门 所 接受 。 

1. 环境 配置 

环境 配置 存放 在 hbase-env.sh 文件 里 。 该 文件 被 运行 HBase 进程 

(Master 和 RegionServer) 的 脚本 引用 ， 因 此 ， 像 Java 扒 大小、 垃圾 收 
集 参 数 和 其 他 环境 变量 等 参数 都 在 这 个 文件 里 设置 的 。 一 个 示例 文件 
如 代码 清单 9-2 所 示 。 

代码 清单 9-2 hbase-env.sh 示 例文 件 


export JAVA HOME=/my/java/installation 


设置 Java 安装 路 径 
二 
| 设置 HBase 安装 路 径 


export HBASE HOME=/my/hbase/installation 


export HBASE MASTER OPTS="-Xmx1000m" ee Ca 
设置 Master 进程 的 Java 选项 。 


在 这 设置 垃圾 回收 
export HBASE REGIONSERVER OPTS="-Xmxl10000m -XX:+UseConcMarkSweepGC 
-XX:+CMSIncrementalMode" 设置 RegionServer 进程 的 Java 属性 。 | 
在 这 设置 垃圾 回收 
#export HBASE REGIONSERVERS=${HBASE HOME}/conf/regionservers 了 4 一 一 一 


设置 包含 RegionServer 列表 的 文件 名 。 只 在 使 用 8HBASE_HOME/bin 
里 的 启动 和 停止 脚本 时 需要 


export HBASE LOG DIR=${HBASE HOME}/logs 4 


pe 后 台 进 程 的 日 志 放 置 位 置 。 这 是 可 选 的 ， 你 可 以 配置 把 日 志文 件 放 到 /var/logs/hbase/ 
目录 。 在 CDH 中 ， 这 是 自动 配置 的 ; 如 果 你 使 用 Apache 发 行 版 ， 则 需要 手动 配置 


export HBASE MANAGES ZK=false pe 
HBase 能 够 为 你 管理 ZooKeeper， 


但 是 在 生产 环境 里 建议 你 单独 管理 


这 并 不 是 一 个 完整 的 文件 。 你 还 可 以 在 这 里 设置 其 他 参数 ， 如 
HBase 进 程 的 niceness 参 数 。 你 可 以 从 安装 目录 里 查找 默认 的 hbase- 
env.sh 文 件 ， 查 看 其 他 可 用 的 配置 选项 。 在 这 里 列 出 来 的 是 在 95% 的 时 
间 里 你 会 用 到 的 配置 选项 。 大 多 数 情况 下 ， 你 不 需要 配置 其 他 参数 。 

在 这 里 ， 内 存 分 配 和 垃圾 回收 是 两 个 重要 的 配置 人 参数。 如果 你 希 

望 HBase 部 署 发 挥 恨 好 的 性 能 ， 注 意 这 两 个 配置 是 至 关 重 要 的 。HBase 

是 一 个 数据 库 ， 需 要 很 多 内 存 来 提供 低 延 迟 的 读 写 。 实 时 (real-time) 

是 一 个 经 常用 到 的 词 一 - 它 的 意思 是 不 用 花费 数 分 钟 承 能 找到 你 想 读 
的 行 的 内 容 。 只 依赖 行 键 索引 ， 惑 能 快速 找到 将 要 读 写 的 行 的 位 置 。 
索引 被 保存 在 内 存 里 ， 而 写 缓存 也 是 保存 在 内 存 里 。 还 记得 我 们 在 第 2 
划 介 绍 的 读 写 过 程 吗 ? 为 了 提供 这 个 功能 和 保证 性 能 ，HBase 需 要 内 存 
一 一 很 多 内 存 ! 不 过 你 也 不 要 给 它 太 多 内 存 。 

注意 任何 东西 太 多 了 都 不 好 ， 即 使 是 用 于 新 型 大 规模 数据 库 的 内 
存 也 如 此 。 


我 们 不 建议 在 生产 环境 HBase 部 署 中 给 RegionServer 分 配 超过 15 
GB 的 堆 空间 。 不 要 超过 限额 和 不 分 配 超过 15 GB 的 堆 空 间 的 原因 在 
于 ， 坪 圾 回收 开始 变 得 很 耗 性 能 。 因 为 你 不 会 很 快 达 到 内 存 限制 ， 垃 
圾 回收 执行 的 频率 会 变 小 ， 但 是 垃圾 回收 每 次 出 现 ， 将 持续 更 长 的 时 
间 ， 因 为 它 要 扫描 更 大 的 内 存 区 域 。 这 并 不 意味 着 15 GB 是 个 魔力 数 
字 ， 也 不 是 你 可 以 给 RegionServer 配 置 的 最 大 堆 空 间 ， 它 只 是 个 好 的 初 
始 建议 值 。 我 们 建议 在 你 的 环境 中 对 堆 空 间 大 小 做 试验 ， 看 看 什么 值 

全 


| 三 


最 合适 ， 什 么 值 可 以 让 你 的 应 用 性 能 满足 SLA。 

分 配 最 优 的 堆 空 间 并 不 能 解决 所 有 问题 。 你 还 需要 优化 垃圾 回 
收 。 这 比 提 到 的 分 配给 RegionServer 的 堆 大 小 选择 要 更 复杂 一 些 。 

Java 坪 圾 回收 

在 Java 程 序 里 ， 创 建新 对 象 大 多 数 使 用 new 操 作 符 。 这 些 对 象 在 
JVM 的 堆 中 被 创建 。 当 这 些 对 象 被 释放 时 ，Java 垃 圾 回收 删除 那些 没有 
引用 的 对 象 来 释放 占用 的 内 存 。 垃 圾 回收 运行 的 默认 配置 做 了 若干 特 
定 假设 (关于 在 创建 和 删除 对 象 时 程序 在 做 什么 ) ， 这 些 配置 对 所 有 
使 用 场景 不 一 定 是 最 优 的 。 

在 Java 垃圾 回收 默认 配置 的 情况 下 ，HBase RegionServer 的 性 能 不 
是 很 好 ， 如 有 果 你 想 文 撑 更 多 负载 ， 则 需要 在 多 种 场合 反复 细心 地 做 优 
化 。 这 个 配置 信息 存放 在 集群 中 所 有 方 点 上 的 hbase-env.sh 文 件 里 。 可 
以 设置 HBase Java 选项 的 初始 值 ， 如 下 所 示 : 


-Xmx8g -Xms8g -Xmnl28m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC 
-XX:CMSInitiatingOccupancyFraction=70 


让 我 们 看 看 各 个 选项 的 含义 。 

四 -Xmx8g 一 一 设置 进程 的 最 大 堆 空 间 。8 GB 是 一 个 合适 的 初始 
值 。 我 们 不 建议 设置 超出 15 GB。 

加 -Xms8g 一 一 设置 初始 堆 大 小 为 8GB。 在 进程 启动 的 时 候 ， 直 接 
分 配 最 大 堆 空 间 是 个 好 主意 。 这 避免 了 在 RegionServer 需 要 更 多 空间 的 


时 候 ， 需 要 额外 开销 增加 堆 空间 。 

四 -Xmn128m 一 一 设置 年 轻 代 大 小 为 128 MB。 同 样 ， 这 并 不 是 总 
是 正确 的 魔力 数字 ， 但 它 是 一 个 好 的 初始 值 。 如 果 默 认 年 轻 代 空间 太 
小 ， 当 增加 负载 的 时 候 ，RegionServer 会 频繁 激进 地 启动 垃圾 回收 。 这 
将 增加 你 的 CPU 使 用 率 。 如 采 设 置 年 轻 代 空间 太 大 的 话 ， 会 市 来 不 能 
充分 进行 垃圾 回收 的 风险 ， 这 样 会 把 对 象 转移 到 年 老 代 ， 从 而 导致 在 
垃圾 回收 执行 时 更 长 的 暂停 时 间 。 在 MemStore 被 刷 写 后 〈 当 你 往 
HBase 表 里 插入 数据 时 这 种 现象 会 频繁 发 生 ) ， 那 些 对 象 将 不 再 被 引用 
并 且 需 要 被 回收 。 把 它们 转移 到 年 老 代 ， 会 导致 在 清除 对 象 后 堆 空间 
变 得 人 雄 片 化 。 

加 -XX:+UseParNewGC 一 一 设置 垃圾 回收 絮 对 年 轻 代 使 用 并 行 收 集 
句 。 这 种 收集 器 会 暂停 Java 进程 ， 然 后 进行 垃圾 回收 。 因 为 年 轻 代 比 
较 小 ， 并 且 进 程 不 会 停止 很 长 时 间 (通常 几 毫 秒 ) ， 这 种 工作 模式 对 
它 是 可 接受 的 。 这 种 暂停 有 时 也 被 称 为 stop-the-world 垃圾 回收 和 暂停 ， 
如 果 暂 停 时 间 太 长 ， 它 们 可 能 是 致命 的 。 如 果 垃 圾 回收 暂停 超过 了 
ZooKeeper 和 RegionServer 会 话 的 超时 时 间 ， 因 为 ZooKeeper 不 能 从 
RegionServer 那 里 得 到 心跳 信息 ，ZooKeeper 会 认为 它 下 线 了 ， 就 会 把 
它 从 集群 中 移 除 。 

加 -XX:+UseConcMarkSweepGC 一 一 因为 年 老 代 空 间 比 年 轻 代 大 ， 
并 行 坪 圾 收集 器 对 年 轻 代 是 合适 的 ， 但 对 年 老 代 束 不 是 那么 合适 了 。 
对 年 老 代 来 说 ， stop-the-world 垃圾 回收 要 持续 几 秒 ， 会 导致 超 时 。 打 
开 并 发 标记 扫描 (concurrent-mark-and-sweep) 垃圾 回收 可 以 缓解 这 个 
问题 。CMS 垃 圾 回收 和 其 他 任务 在 JVM 中 并 行进 行 ， 它 不 会 暂停 进 
程 ， 直 到 它 的 垃圾 回收 任务 失败 ， 给 出 错误 提示 。 那 时 ， 进 程 则 需要 
被 暂停 并 且 执 行 垃圾 回收 。 因 为 CMS 执行 垃圾 回收 的 时 候 ， 其 他 进程 
仍 在 并 行 运行 ，CMS 会 增加 CPU 的 压力 。 


四 -XX:CMSInitiatingOccupancyFraction 一 CMS 收集 器 可 以 被 配置 
为 当 堆 空 间 被 使 用 到 一 定 比 例 时 启动 执行 。 该 参数 就 是 设置 那个 比例 
的 。 如 果 设 置 的 比例 太 低 ， 将 导致 CMS 经 常 启 动 ， 而 设置 比例 太 高 ， 
又 会 导致 执行 太 迟 缓 ， 引 起 更 多 的 错误 提示 。 一 个 比较 好 的 初始 值 是 
70%; 在 你 对 系统 进行 性 能 基准 测试 后 ， 可 以 根据 需要 调 高 或 调 低 这 个 
值 。RegionServer 的 堆 由 BlockCache (默认 是 堆 的 20%) 和 MemStore 

(默认 是 堆 的 40%) 组 成 ， 设 置 70% 的 占 比 只 是 稍微 高 于 上 述 两 者 之 

和 。 

在 问题 发 生 时 ， 输 出 垃圾 回收 活动 日 志 进 行 故障 排 错 是 很 有 帮助 
的 。 你 可 以 在 垃圾 回收 配置 中 添加 下 面 两 行 来 局 用 日 志 输 出 : 


-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps 
-Xloggc: SHBASE HOME/logs/gc-$ (hostname) -hbase.1og 


HBase 堆 空间 和 垃圾 回收 优化 对 于 系统 的 性 能 是 至 天 重要 的 ， 在 规 
划 生 产 系 统 的 时 候 ， 我 们 乾 励 你 对 设置 进行 大 量 测 试 。 根 据 运行 HBase 
的 硬件 种 类 和 项 望 运行 的 负载 种 类 ， 这 种 优化 会 有 不 同 。 例 如 ， 写 密 
集 型 工作 负载 比 读 密集 型 工作 负载 需要 稍 大 些 的 年 轻 代 大 小 。 

2. HBase 配 置 

HBase 守 护 进程 的 配置 参数 存放 在 hbasesite.xml 文 件 里 。 这 个 XML 
配置 文件 也 可 以 被 客户 端 应 用 使 用 。 你 把 它 保存 在 客户 端 应 用 的 类 路 
径 (classpath) 下 ， 在 实例 化 HBaseConfiguration 对 象 的 时 候 ， 客 户 端 
应 用 会 读 取 XMIL 配 置 文件 ， 然 后 提取 相 天 的 参数 。 

既然 你 知道 了 配置 文件 的 位 置 ， 束 让 我 们 看 看 它 的 内 容 和 参数 是 
如 何 定 义 的 。 一 个 XML 配 置 文 件 的 示例 如 代码 清单 9-3 所 示 。 这 并 不 是 
一 个 完整 的 文件 ， 只 包含 了 给 你 展示 格式 的 一 个 参数 。 我 们 稍 后 将 列 
举 出 很 多 参数 和 它们 的 含义 。 

代码 清单 9-3 hbase-site.xml 配 置 文 件 的 格式 


<?Xml VerSsSion="1.0"2?> 
<?xml -stylesheet type="text/xsl" href="configuration.xsl"?> 


<configuration> 
<property> 

<name>hbase.rootdir</name> 

<value>file:///tmp/hbase-${user.name}/hbase</value> 

<description>The directory shared by region servers and into 
which HBase persists. 

</description> 

</property> 
</configuration> 

该 配置 文件 是 一 个 标准 的 XML 文件 ， 每 组 <property> 标 签 代表 一 
个 配置 参数 。 你 可 能 会 用 到 几 个 参数 。 最 重要 的 配置 参数 如 下 。 

@ hbase.zookeeper.quorum HBase 集群 中 的 所 有 组 件 都 需要 知道 
哪些 服务 器 构成 ZooKeeper quorum。 该 配置 参数 就 是 放置 这 个 信息 的 地 
方 。 其 XML 标 签 如 下 所 示 : 
<property> 

<name>hbase .zookeeper.quorum</name> 
<value>serverlip,server2ip,server3ip</value> 
</property> 


国 hbase.rootdir HBase 在 HDFS 上 持久 化 存储 它 的 数据 ， 使 用 
该 参数 明确 地 配置 数据 的 存储 位 置 。 其 XML 标 签 如 下 所 示 : 


<property> 
<name>hbase.rootdir</name> 
<value>hdfs://namenode.yourcompany.com:5200/hbase</value> 
</property> 


5200 是 NameNode 配 置 的 监听 端口 。 在 安装 Hadoop 的 时 候 ， 它 在 
hdfs-site.xml 文 件 里 配置 。 

加 hbase.cluster.distributed- 一 HBase 可 以 运行 在 单机 模式 、 伪 分 布 
式 模式 或 完全 分 布 式 模式 下 。 蛙 机 模式 和 伪 分 布 式 模式 只 用 于 测试 和 
研究 ， 不 能 用 于 生产 环境 。 完 全 分 布 式 模式 被 设计 用 于 生产 用 途 ， 要 


运行 完全 分 布 模式 ， 需 要 把 hbase.cluster.distributed 属 性 设置 为 tue。 其 


XML 标签 如 下 : 
<property> 


<name>hbase.cluster.distributed</name> 
<value>true</value> 
</property> 
为 了 让 HBase 运 行 在 分 布 式 模式 下 ，hbase-site.xml 文 件 中 的 这 3 个 
参数 必须 被 设置 。 其 他 配置 参数 一 般 用 来 优化 集群 的 性 能 ;根据 你 的 
使 用 场景 和 SLA 定义 ， 在 优化 系统 的 时 候 你 可 能 会 配置 它们 。 这 些 参 
数 如 表 9-1 所 示 。 这 不 是 一 张 hbase-site.xml 文 件 可 以 包含 的 全 部 配置 参 
数 的 完整 列表 ， 其 中 列 出 的 只 是 你 可 能 需要 调整 的 配置 参数 。 如 果 想 
查看 完整 的 参数 列表 ， 我 们 建议 查看 源 代码 里 的 hbase-default.xml 文 
人 


表 9-1 HBase 配 置 参数 


配置 参数 介 绍 
hbase.client.scanner 定义 在 扫描 器 中 调用 next 方法 时 取 回 的 行 数 。 数 值 越 
caching 大 ， 在 扫描 时 客户 端 需 要 对 RegionServer 发 出 的 远 


程 调用 次 数 越 少 。 数 值 越 大 ， 也 意味 客户 端 要 消耗 内 存 
越 多 。 这 也 可 以 基于 每 个 客户 端 在 配置 对 象 中 进行 设置 


hbase.balancer .period region 均衡 器 在 HBase Master 中 周期 性 运行 。 该 属性 定 
义 了 你 让 均衡 器 运行 的 时 间 间 阳 。 默 认 是 5 分钟 ， 以 训 
秒 为 单位 设置 (300 000) 


hbase.client.write.buffer | 客户 端 HTable 实例 的 写 缓存 ， 按 字 节 数 配 置 。 缓 存 越 
大 ， 意 味 着 在 写 期 间 RPC 次 数 越 少 , 但 内 存 消耗 也 越 高 


hbase.hregion 大 合并 可 以 配置 为 周期 性 发 生 。 该 配置 参数 以 毫秒 为 单 
‘majorcompaction 位 定义 时 间 间 隔 。 默 认 值 是 1 天 (86 400 000 ms) 


配置 参数 


hbase.hregion.max 
.filesize 


hbase.hregion.memstore 
.flush.size 


hbase.hregion 
.memstore.mslab 
.enabled 


hbase.hstore 
.blockingStoreFiles 


hbase.hstore.compaction 
.max 


hbase.hstore 
.compactionThreshold 


hbase.mapreduce 
.hfileoutputformat 
.blocksize 


hbase.master.info.port 


hbase.master.port 


hbase.regionserver.port 


介 绍 


底层 存储 文件 (HStoreFile) 的 最 大 值 。region 大 小 由 这 个 参数 
定义 。 如 果 列 族 的 存储 文件 超过 这 个 值 ，region 会 被 拆 分 


MemsStore 的 最 大 值 ， 按 字 节 为 单位 配置 。 当 MemStore 超过 
这 个 值 时 ， 它 会 被 刷 写 到 硬盘 。 一 个 周期 性 运行 的 线程 检查 
MemStore 的 大 小 。 线 程 运行 的 频率 由 hbase.server. 
thread. wakefrequency 参数 定义 


MemStore-Local Allocation Buffer 是 HBase 的 一 个 特性 ， 
用 来 在 出 现 密集 写 时 防止 推 碎片 化 。 有 些 情 况 下 ， 打 开 
这 个 特性 有 助 于 缓解 由 于 堆 太 大 引起 的 垃圾 回收 暂停 太 
长 的 问题 。 它 的 默认 值 是 true 


如 果 region 里 某 个 列 族 的 存储 文件 数目 超过 这 个 值 ， 写 会 被 
阻 蹇 ， 直 到 合并 完成 或 者 阻塞 超时 。 超 时 时 间 用 
hbase.hstore.blockingWaitTime 参数 进行 配置 ， 以 毫 
秒 为 单位 


配置 在 单个 小 合并 中 进行 合并 的 最 多 文件 数 。 默 认 值 是 7 


在 某 个 列 族 的 存储 文件 数 达到 这 个 值 时 ，HBase 在 那个 
region 上 执行 合并 。 给 这 个 参数 设置 的 值 越 大 , 会 导致 执 
行 合并 的 频率 越 低 ， 执 行 时 花费 的 时 间 越 长 


HFile 的 数据 块 大 小 在 每 张 表 的 每 个 列 族 层级 进行 设置 。 该 
参数 决定 了 HFile 建立 索引 的 粒度 。 数 据 块 越 小 ， 导 致 随机 
读 取 性 能 越 好 ， 但 同时 数据 块 索引 也 越 大 ， 这 意味 着 消耗 
内 存 越 多 。 当 你 在 MapReduce 作业 中 使 用 
HFileOutputFormat 直接 把 数据 写 到 HFile 时 ， 必 须 使 
用 这 个 属性 定义 数据 块 的 大 小 ， 因 为 MapReduce 代码 没有 
访问 表 的 定义 ， 不 知道 列 族 是 怎么 配置 的 


我 们 稍 后 将 讨论 HBase 用 户 界 面 ， 它 通过 这 个 端口 访问 。 其 Web 
用 户 界 面 的 地 址 是 httpymasteryourcompanycom: 
<hbase.masterinfo.port>。 端 口 默认 值 是 60010 


这 是 Master 进程 的 监听 端口 。 默 认 值 是 60000。 大 部 分 情 
况 下 ， 你 不 必 改 变 端 口 默认 值 ， 除 非 你 要 关闭 某 些 端口 ， 
包括 HBase 的 默认 端口 


这 是 RegionServer 的 监听 端口 


配置 参数 


hbase.regionserver.global 
.memstore.lowerLimithbase 
.regionserver .global .memstore 
.UpperLimit 


hbase.regionserver.handler 
.Count 


hbase.regionserver 
.optionallogflushinterval 


hbase.regionserver 
.regionSplitLimit 


hbase.tmp.dir 


hfile.block.cache.size 


zookeeper.session.timeout 


zookeeper.znode.parent 


续 表 
介 绍 


upperLimit 定义 在 一 个 RegionServer 上 MemStore 总 
共 可 以 使 用 的 堆 的 最 大 百分比 。 遇 到 upperLimit 的 
时 候 , MemStore 被 刷 写 到 硬盘 , 直到 遇 到 lowerLimit 
时 停止 。 把 这 两 个 参数 的 值 设置 为 彼此 相等 意味 着 发 生 
的 刷 写 数据 量 最 小 ， 那 时 因为 upperLimit 一 直 被 遇 
到 所 以 写 操作 被 阻塞 。 这样 做 会 把 写 过 程 中 的 暂停 时 间 
降 到 最 短 ， 但 是 也 会 导致 更 加 频繁 地 刷 写 动作 

在 RegionServer 和 Master 进程 上 可 以 启动 的 RPC 监听 器 
数量 

不 管 HLog 文件 中 有 和 多少 edits, Hlog 多 久 必须 刷 写 一 次 到 
文件 系统 。 这 个 参数 以 毫秒 为 单位 进行 配置 。 默 认 值 是 1 
秒 (1000 ms) 

一 个 系统 拥有 的 region 数量 的 最 大 值 。 默 认 值 是 
MAX_INT (2 147 483 647) 

在 本 地 文件 系统 上 HBase 使 用 的 临时 目录 

数据 块 缓存 可 以 使 用 的 堆 的 最 大 占 比 。 数 据 块 缓存 就 是 
读 缓存 (LRU) 

HBase 守护 进程 和 客户 端 都 是 ZooKeeper 的 客户 端 。 这 个 参 
数 是 它们 和 ZooKeeper 之 间 会 话 的 超时 时 间 。 该 参数 以 毫秒 
为 单位 进行 配置 

在 ZooKeeper 中 HBase 的 znode 根 目录 。 默 认 是 /hbase。 
所 有 HBase 的 ZooKeeper 文件 都 被 配置 为 使 用 该 目录 作 
为 父 目 录 


9.4.2 与 HBase 有 关 的 Hadoop 配 置 参数 


正如 你 知道 的 ，Hadoop 和 HBase 是 紧密 而 合 的 。HBase 使 用 HDFS 
作为 基础 系统 ，Hadoop 的 配置 方式 会 影响 到 HBase。 优 化 好 HDFS 会 
极 大 地 提高 HBase 的 性 能 。 表 9-2 里 介绍 了 一 些 重 要 的 配置 参数 。 
表 9-2 对 于 HBase 来 说 一 些 重要 的 HDFS 配 置 参数 


配置 参数 
dfs.support .append 


介 绍 

HBase 需要 持久 同步 到 HDFS， 这 样 在 edits 被 写 入 时 ， 
预 写 日 志 (WAL) 将 被 持久 化 。 如 果 在 RegionServer 宕 
机 时 数据 没 被 持久 化 到 硬盘 ， 没 有 持久 同步 则 HBase 会 
丢失 数据 。 这 个 参数 必须 被 明确 设 为 true， 使 HDFS 上 的 
同步 生效 。 这 个 特性 在 Hadoop 0.20.205 及 更 高 的 版 本 可 
用 。 对 于 HBase 0.92， 你 很 可 能 使 用 Hadoop 1.0.x 或 更 
高 的 版 本 ， 它 们 文 持 同 步 


配置 参数 刘强 
dfs.datanode.max.xcievers" | 在 DataNode 上 xcievers 的 最 大 值 是 一 个 重要 的 配置 参 
数 ， 并且 它 经 常 不 能 被 Hadoop 的 管理 员 很 好 地 了 解 。 它 
定义 了 每 个 DataNode 上 HDFS 客户 端 可 以 用 于 读 写 数据 
的 套 接 字 /线程 的 最 大 数量 。Lars George 为 它 写 过 一 个 
很 全 面 的 介绍 ", 我 们 推荐 阅读 这 篇 文章 以 更 好 地 理解 它 
做 了 什么 。 大 部 分 情况 下 ， 你 可 以 把 它 设 为 4 096。 默 认 
值 256 太 低 了 ， 如 果 你 有 稍微 密集 的 IO 负载 ， 你 会 在 
RegionServer 的 日 志 中 看 到 IOException 


a， 是 有 的， 就 是 这 么 拼写 的 ， 不 是 xceivers 。 


b. Lars George,“HBase + Hadoop + Xceivers,” March 14, 2012， 
http://mng.bz/Fcd4 ° 


如 果 在 HBase 表 上 运行 MapReduce 作 业 ， 那 么 不 但 HDFS 的 配置 会 
影响 HBase， 而 且 MapReduce 框 织 的 配置 也 会 影响 HBase。 如 采 你 的 使 
用 场景 不 需要 在 HBase 表 上 执行 MapReduce 作 业 ， 你 可 以 安全 地 关闭 
MapReduce 框 架 ; 也 就 是 说 ， 停 止 JobTracker 和 TaskTrackerj 进 程 ， 这 会 
腾 出 更 多 资源 给 HBase 使 用 。 如 有 果 你 计划 使 用 HBase 表 作为 运行 
MapReduce 作业 的 数据 产 或 者 输出 存储 ， 请 把 每 个 市 点 的 任务 数 调 整 
得 比 标准 MapReduce 集 群 小 一 些 。 其 指导 思路 是 把 足够 的 资源 分 配给 
HBase。 在 运行 Map-Reduce 作 业 时 ， 减 少 了 分 配给 RegionServer 进 程 的 
堆 空 间 ， 这 会 影响 HBase 的 性 能 。 


总 的 来 说 ， 不 建议 把 运行 MapReduce 作 业 的 工作 负载 和 需要 相对 低 
延迟 随机 读 写 的 工作 负载 混合 在 一 起 ， 这 样 会 让 它们 中 任何 一 个 都 不 
能 发 挥 出 好 的 性 能 。 如 果 在 HBase 上 运行 MapReduce 作 业 ， 随 机 读 写 
的 性 能 将 受 影响 ， 延 迟 会 上 升 。 你 从 单个 HBase 实 例 中 得 到 的 总 吞吐 量 
是 一 个 常量 。 你 最 终 会 停止 在 两 种 负载 中 共享 吞吐 量 。 还 有 ， 如 采 在 
同一 个 集群 上 混合 使 用 大 量 的 MapReduce 人 负载， 那么 稳定 地 运行 HBase 
会 变 得 相对 更 为 困难 。 此 时 ， 稳 定 运 行 HBase 不 是 不 可 能 ， 但 是 需要 更 
谨慎 地 进行 资源 分 配 (如 RegionServer 的 堆 空 间 、 每 个 节点 的 任务 数 、 
任务 的 堆 空 间 等 ， 这 比 把 它们 分 开 部 署 的 情况 要 困难 得 多 。 


9.4.3 人 外: 


在 大 多 数 运行 HBase 和 Hadoop 的 生产 系统 里 ， 都 是 用 Linux 作 底层 
操作 系统 。 除 了 打开 文件 数量 的 ulimit 参 数 外 ， 你 不 需要 做 太 多 优化 。 
HBase 是 一 个 数据 库 ， 它 需要 保持 文件 打开 ， 以 便 可 以 进行 读 写 操作 而 
不 用 承受 每 次 操作 打开 和 关闭 文件 的 开销 。 在 一 个 文 撑 真实 负载 的 系 
统 中 ， 你 可 能 很 快 触 及 打开 文件 数量 的 限制 。 我 们 建议 你 调 高 这 个 限 
制 ， 尤 其 是 在 生产 部 署 的 时 候 。 你 不 需要 在 系统 范围 内 调 高 它 ， 只 
针对 DataNode 和 RegionServer 进 程 调 高 就 可 以 了 。 为 简单 起 见 ， 你 可 
以 针对 运行 这 些 进程 的 用 户 调 高 该 参数 。 

为 了 调 高 用 户 打 开 文 件数 量 的 限制 ， 针 对 将 运行 Hadoop 和 HBase 守 
护 进 程 的 用 户 ， 请 把 下 面 的 内 容 写 到 /etc/security/limits.conf 文 件 里 。 
CDH 在 软件 包 安 闭 过 程 已 经 为 你 做 好 了 这 些 设置 。 


hadoopuser nofile 32768 
hbaseuser nofile 32768 
hadoopuser soft/hard nproc 32000 
hbaseuser soft/hard nproc 32000 


为 了 使 这 些 配置 生效 ， 你 需要 退出 ， 然 后 重新 登录 到 你 的 机 器 。 
这 些 配置 参数 调 高 了 hadoopuser 和 hbaseuser 的 打开 文件 数 和 运行 进程 数 


限制 。 

另外 一 个 需要 优化 的 重要 的 配置 参数 是 交换 (swap) 行为 。 在 
HBase RegionServer 上 发 生 交 换 是 致命 的 ， 即 使 没有 因为 ZooKeeper 超 
时 完全 停 掉 RegionServerj 进 程 ， 也 会 显著 降低 性 能 。 最 理想 的 做 法 是 关 
闭 RegionServer 太 点 上 的 交换 °。 如果 你 没有 那么 做 ， 可 以 使 用 内 核 可 调 
参数 vm.swappiness (/proc/sys/vm/ swappiness) 来 定义 内 存 页 被 交换 到 
硬盘 的 频 度 。 个 值 越 大 ， 交 换 越 频繁 。 把 这 个 参数 调 到 0， 如 下 所 示 : 


$ sysctl -w vm.swappiness=0 


9.5 管理 守护 进程 


运营 一 个 HBase 生 产 部 署 会 遇 到 很 多 问题 ， 下 一 章 将 详细 讲解 。 让 
一 个 系统 运转 起 来 的 第 一 步 是 成 功 部 署 和 局 动 各 种 服务 。 到 现在 为 
止 ， 我们 一 直 在 讨论 部 署 合 适 的 组 件 、 配 置 操作 系统 、 配 置 Hadoop、 
配置 HBase。 现 在 所 有 这 些 都 完成 了 ， 你 可 以 局 动 系统 ， 让 系统 准备 接 
收 一 些 读 写 请 求 。 你 安装 的 HBase 发 行 版 本 预 装 了 用 于 启动 和 停止 服务 
的 脚本 。Apache 发 行 版 本 使 用 $HBASE_HOME/bin/ 目 隶 里 的 hbase- 
daemon.sh 脚 本 ， 而 CDH 预 装 的 是 init 脚 本 。 

在 集群 中 的 每 个 节点 上 需要 启动 相关 服务 。 因 为 在 安装 HBase 之 
前 你 已 经 安装 过 Hadoop， 你 可 能 已 经 有 了 启动 服务 的 体系 。 如 果 你 还 
没有 ， 这 里 有 一 些 选 择 。 

加 人 使 用 预 装 的 start 和 stop 脚 本 。Hadoop 和 HBase 预 装 的 start 和 stop 脚 
本 可 以 远程 登录 到 集群 中 的 所 有 机 器 上 局 动 正 确 的 进程 。 其 缺点 是 它 
们 需要 无 密码 的 SSH 连 接 ， 由 于 安全 性 的 缘故 ， 一 些 IT 部 门 不 允许 这 人 么 
做 。 你 可 能 会 辩解 说 ， 你 可 以 在 每 次 使 用 脚本 登录 节点 启动 /停止 进程 
时 输入 密码 。 当 然 可 以 ， 但 是 想 想 在 数 百 个 节点 上 为 了 启动 /停止 操作 


而 
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一 遍 又 一 明 输 入 密码 的 场景 。 甚 至 有 时 候 你 没有 账户 的 密码 
\ 十 从 目 己 的 账户 用 su 切换 过 去 的 。 这 种 情况 比 你 设想 的 更 为 常见 。 


晶 如 朱 你 在 对 付 一 个 服务 天 


给 集群 ， 


集群 SSH 


你 


(http://sourceforge.net/projects/clusterssh) 是 个 有 用 的 工具 。 它 允许 你 
在 登录 单独 的 窗口 后 ， 在 集群 全 部 机 器 上 同时 执行 相同 的 Shell 命 令 。 


通过 同时 在 所 有 市 点 上 执行 相同 的 命令 ， 


你 可 以 在 所 有 工作 节点 上 启 


动 守 护 进程 。 这 很 简单 易 行 ， 但 这 在 管理 大 量 机 器 时 有 点 儿 和 危险 。 
加 目 己 编写 脚本 总 是 一 种 选择 。 如 果 把 它们 和 Chef/Puppet 或 者 其 
他 你 喜欢 的 部 署 系统 结合 起 来 ， 你 可 以 把 脚本 放 到 每 台 主 机 上 来 启动 


合适 的 服务 。 


加 人 合用 像 Cloudera Manager 这 样 的 管理 软件 ， 它 支持 你 通过 一 个 
Web 用 户 界 面 管理 集群 上 的 所 有 服务 。 
基本 的 思路 是 在 每 个 节点 上 局 动 合适 的 守护 进程 。 你 可 以 使 用 
$HBASE_HOME/bin/hbase-daemon.sh 脚 本 在 某 一 个 节点 启动 一 个 HBase 


守护 进程 ， 如 下 所 示 : 


$HBASE HOME/bin/hbase-daemon.sh - 
$HBASE HOME/bin/hbase-daemon.sh - 
$HBASE HOME/bin/hbase-daemon.sh - 


backup 


$HBASE HOME/bin/hbase-daemon.sh - 
$HBASE HOME/bin/hbase-daemon.sh - 
SHBRASE HOME/bin/hbase-daemon.sh - 


-config 
-config 
-config 


-config 
-config 
-config 


$HBASE HOME/conf/ 
$HBASE HOME/conf/ 
$HBASE HOME/conf/ 


$HBASE HOME/conf/ 
$HBASE HOME/conf/ 
$HBASE HOME/conf/ 


start master 
start regionserver 
start master- 


stop master 
stop regionserver 
stop master-backup 


并 不 是 所 有 守护 进程 在 每 个 地 方 都 需要 启动 。 正 如 我 们 在 本 章 前 
面 讨论 的 ， 它 们 需要 在 各 自 的 服务 器 上 启动 。 

当 你 在 所 有 工作 节点 上 启动 了 RegionServer 进程 以 及 在 管理 万 点 
上 启动 了 Master 进 程 后 ， 你 可 以 使 用 HBase Shell 或 者 HBase Master Web 
UI 查看 系统 的 状态 。 一 个 用 户 界 面 的 示例 如 图 9-1 所 示 。 


De Ma p10 
© 4D 107.22.117.3240010/maer -status 


2 Deers “| 
Master: ip-10-6-166-97.ec2jnternal:60000 


图 9-1 一 个 使 用 中 的 HBase 实 例 的 HBase Master UI 
9.6 小 结 


在 本 章 中 ， 我 们 介绍 了 为 生产 应 用 在 完全 分 布 式 环境 里 部 署 HBase 
的 各 个 方面 。 我 们 讨论 了 在 为 集群 选择 硬件 时 需要 考虑 的 因素 ， 包 括 
征 部 嗜 在 目 己 的 硬件 上 还 是 部 署 在 云端 。 接 下 来 ， 我 们 讨论 了 各 种 发 
行 版 本 的 安装 和 配置 ， 最 后 讨论 了 集群 管理 。 

本 章 让 你 对 生产 环境 中 如 何 部 署 HBase 有 了 准备 。 在 监控 HBase 
系统 方面 还 有 很 多 内 容 ， 下 一 章 将 介绍 这 部 分 内 容 。 


10 章 运 


本 章 涵盖 的 内 容 

加 监控 和 监控 指标 

@ 性 能 测试 和 调 优 

晶 名 见 管理 和 运 维 任务 

四 备份 和 复制 策略 

你 已 经 学 习 了 很 多 ， 关 于 对 HBase 的 认 知 以 及 如 何 有 效 地 构建 应 
用 系统 等 基础 知识 ， 我 们 也 研究 了 如 何 部 署 完全 分 布 式 的 HBase 集 群 、 
选择 什么 样 的 人 硬件、 各 种 分 布 式 部 署 选 项 以 及 如 何 配置 集群 等 。 所 有 
这 些 知识 都 用 来 帮 你 把 应 用 系统 和 HBase 顺利 投入 到 生产 环境 。 但 是 
还 有 最 后 一 部 分 内 容 需 要 探讨 一 一 运 维 。 作 为 应 用 开发 人 员 ， 当 机 器 
运行 在 生产 环境 时 ， 你 不 会 被 要 求 去 运 维 展 层 的 HBase 集 群 。 然 而 ， 在 
项 目 采 用 HBase 的 初始 阶段 ， 很 可 能 你 会 在 运 维 工作 中 扮演 必 不 可 少 的 
角色 ， 你 需要 协助 运 维 团 队 在 各 个 方面 尽快 成 功 运转 一 个 HBase 集 群生 
产 环境 。 

运 维 是 一 个 广泛 的 话题 。 本 半 中 ， 我 们 的 目标 是 围绕 有 关 HBase 
的 基本 运 维 概 念 进行 阐释 。 这 能 够 让 你 成 功 地 运营 集群 ， 让 应 用 系统 
为 最 终 目 标 用 户 提供 服务 。 为 了 做 到 这 一 点 ， 我 们 首先 要 了 解 监控 和 
监控 指标 这 两 个 与 HBase 有 关 的 概念 。 这 包括 监控 HBase 部 署 的 不 同方 
法 和 需要 监控 的 监控 指标 。 

监控 是 一 个 重要 的 环节， 在 成 功 部 署 HBase 集群 后 ， 你 就 要 开始 
考虑 测试 HBase 集 群 和 应 用 系统 的 性 能 了 “。 如 有 宁 应 用 系统 不 能 文 择 布 
望 使 用 它 的 所 有 用 户 的 负载 ， 那 么 所 有 的 努力 并 且 把 它 投入 生产 运行 
征 没有 意义 的 。 接 下 来 ， 我 们 将 讨论 在 运营 集群 的 过 程 中 需要 考虑 的 
常见 管理 和 运 维 任务 。 这 些 任 务 包括 启动 和 停止 服务 、 升 级 、 检 测 和 
修复 数据 不 一 致 情况 等 。 本 章 的 最 后 一 个 主题 涉及 HBase 集 群 的 备份 与 
复制 。 在 灾难 来 袭 时， 这 对 于 保证 业务 连续 性 的 目标 来 说 是 至 关 重 要 
的 。 


注意 本 章 涵 盖 的 主题 是 关于 0.92 版 本 的 。 在 未 来 的 版 本 中 一 些 推 
荐 建议 可 能 会 发 生变 化 ， 如 采 你 在 使 用 更 新 的 版 本 ， 我 们 鼓励 你 深入 
今 夺 这些 建议 。 

事 不 是 迟 ， 让 我 们 开始 行动 。 


10.1 监控 你 的 集群 


任何 生产 系统 的 一 个 关键 点 吏 是 运 维 人 员 监控 其 状态 和 表现 的 能 
力 。 当 问题 发 生 时 ， 运 维 人 人员 最 不 布 望 做 的 事情 束 古 沪 伍 数 GB 或 TB 
的 日 志 来 搞 清 楚 系 统 的 状态 和 问题 的 根源 。 没 有 人 愿意 为 搞 清 楚 发 生 
了 什么 情况 而 去 阅读 跨 多 台 服 务 絮 的 成 千 上 万 行 日 志 记 有 杂 。 这 种 情况 
下 ， 你 记录 的 详细 监控 指标 束 开 始 发 挥 作用 。 在 一 个 像 HBase 这 样 达 
到 生产 品质 的 数据 库 里 发 生 着 很 多 事情 ， 每 件 事 情 都 可 以 用 不 同 的 方 
法 进行 测量 。 这 些 测 量 结 末 被 系统 输出 出 来 ， 可 以 被 用 来 记录 它们 的 
外 部 框架 所 捕获 ， 然 后 提供 给 运 维 人 员 使 用 。 

注意 由 于 涉及 许多 组 件 ， 无 论 就 构成 系统 的 不 同 组 件 还 是 就 运营 
规模 而 言 ， 在 分 布 式 系统 中 运 维 是 尤其 困难 的 。 

收集 监控 指标 和 疼 形 显示 的 功能 并 不 是 HBase 独 有 的 ， 在 任何 一 
个 成 功 的 系统 中 都 可 以 找到 这 样 的 功能 ， 无 论 其 规模 大 小 。 但 走 不 同 
的 系统 实现 的 方式 有 所 不 同 。 本 市 中 ， 我 们 将 讨论 HBase 如 何 输出 这 
些 监控 指标 ， 以 及 用 来 捕获 这 些 监控 指标 和 透 过 这 些 监 控 指 标 了 解 集 
群 性 能 表现 的 框架 。 我 们 还 会 讨论 HBase 输 出 的 监控 指标 及 其 舍 义 ， 以 
及 如 何 使 用 这 些 监控 指标 在 问题 发 生 时 发 出 警告 。 

是 示 我 们 建议 ， 甚 至 在 采用 HBase 的 原型 阶段 就 应 该 建立 起 完整 
的 监控 指标 收集 、 图 形 显示 和 监控 体系 。 这 可 以 帮助 你 熟悉 运营 
HBase 的 各 个 方面 ， 并 且 有 利于 更 顺畅 地 过 渡 到 生产 环境 。 此 外 ， 当 
系统 接受 访问 请 求 时 ， 能 够 看 到 表示 这 些 请 求 的 齐 亮 的 岁 形 也 走 一 件 


有 趣 的 事情 。 因 为 你 会 更 加 了 解 在 应 用 与 HBase 交互 时 抵 层 系统 都 发 
生 了 什么 ， 所 以 这 在 应 用 系统 的 开发 进程 中 也 会 有 所 帮助 。 


这 种 监控 指标 框架 是 HBase 依赖 于 Hadoop 的 男 一 个 体现 。HBase 
与 Hadoop 紧 密 结 合 在 一 起 ，HBase 使 用 Hadoop 的 压 层 监控 指标 框架 来 
输出 目 己 的 监控 指标 信息 。 在 编写 本 书 的 时 候 ，HBase 还 在 使 用 监控 指 
标 框 架 v1 (metrics framework v1) [3 。 让 HBase 使 用 更 新 、 更 好 的 监控 
指标 框架 版 本 的 工作 正在 进行 中 名 ， 但 还 没有 完成 。 

除非 你 想 涉 足 这 些 框架 的 开发 ， 否 则 没有 必要 去 深究 监控 指标 框 
染 的 具体 实现 方法 。 如 果 你 的 目标 是 框架 开发 的 话 ， 请 你 务必 深入 了 
解 那些 代码 ， 但 如 有 果 你 只 是 对 在 你 的 应 用 系统 中 使 用 HBase 监 控 指 标 感 
兴趣 ， 你 只 需要 知道 如 何 配置 框架 和 输出 监控 指标 的 方法 即 可 ， 这 恕 
是 我 们 接 下 来 要 讨论 的 内 容 。 

这 种 监控 指标 框架 的 工作 方式 是 基于 对 MetricsContext 接 口 的 
context 实 现 来 输出 监控 指标 信息 。 你 可 以 使 用 的 两 个 预 装 的 实现 是 : 
Ganglia context 和 File context。 除 了 这 两 个 context 实 现 之 外 ，HBase 还 可 
以 使 用 Java Management Extensions (JMX) 上 来 输出 监控 指标 。 


10.1.2 监控 指标 乡 展示 


监控 指标 框架 涉及 两 部 分 功能 一 一 收集 (collection) 和 图 形 展示 
(graphing) 。 通 常 这 两 部 分 功能 都 被 内 置 在 同一 个 框架 下 ， 但 这 并 不 
古 必需 的 。 收 集 功能 用 来 收集 被 监控 的 系统 产生 的 监控 指标 信息 ， 并 
将 这 些 监 控 指 标 信息 高 效 存储 起 来 ， 以 便 将 来 可 以 使 用 。 这 部 分 功能 
也 会 按照 日 、 月 或 年 为 单位 执行 汇总 的 工作 。 大 多 数 情况 下 ， 超 过 一 
年 的 细 粒 度 监 探 指标 数据 和 同一 个 监控 指标 的 年 度 汇总 数据 一 样 没有 
们 公用 不 


图 形 展示 功能 使 用 收集 框架 捕获 和 存储 的 数据 ， 以 图 形 和 漂亮 图 
片 的 形式 将 其 展示 出 来 ， 方 便 最 终 用 户 查 看 。 运 维 人 员 查 看 这 些 图 
形 ， 可 以 快速 洞察 系统 的 状态 。 通 过 在 图 形 上 设置 靖 值 ， 你 可 以 轻松 
了 解 系统 是 否 运行 在 预期 范围 里 。 根 据 这 些 图 形 ， 当 墨 菲 定律 是 生效 
时 (可 能 超过 立 值 的 监控 指标 一 定 会 超过 病 值 ， 你 可 以 采取 措施 以 免 
最 终 应 用 受到 影响 。 

现在 有 很 多 种 收集 和 图 形 展示 工具 可 以 使 用 ， 但 并 不 是 所 有 的 工 
具 都 能 够 紧密 集成 Hadoop 和 HBase 输出 监控 指标 的 方式 。 你 的 选择 被 
限定 在 Ganglia (原生 支持 Hadoop 的 监控 指标 框架 ) 或 者 一 些 通过 JMX 
收集 监控 指标 信息 的 框架 。 

1. Ganglia 

Ganglia (http://ganglia.sourceforge.net/) [9] 是 一 种 被 设计 用 来 监控 
集群 的 分 布 式 监控 框架 。 它 是 在 加 州 大 学 伯克利 分 校 开发 的 开源 项 
目 。Hadoop 和 HBase 人 社区 一 直 使 用 它 作 为 监控 集群 的 业界 标准 方案 。 

为 了 配置 HBase 把 监控 指标 信息 输出 到 Ganglia， 需 要 设置 
$HBASE_HOME/conf/ 目 录 下 的 hadoop-metrics.properties 文件 中 的 参 
数 。 需 要 配置 的 内 容 取 决 于 使 用 的 Ganglia 版 本 。 对 于 3.1 以 前 的 版 本 ， 
应 该 使 用 GangliaContext， 而 3.1 及 以 后 的 版 本 ， 应 该 使 用 
GangliaContext31。 对 于 Ganglia 3.1 及 以 后 的 版 本 ， 我 们 配置 hadoop- 
metrics. properties 文 件 如 下 : 


hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
hbase .period=10 

hbase.servers=GMETADHOST IP:PORT 
jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
jvm.period=10 

jvm.servers=GMETADHOST IP:PORT 
rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31 
rpc.period=10 

rpc.servers=GMETADHOST IP:PORT 


当 你 完成 Ganglia 的 安装 和 配置 ， 并 且 使 用 这 些 配置 属性 启动 HBase 
守护 进程 后 ，Ganglia 的 监控 指标 列表 会 显示 HBase 输 出 的 监控 指标 信 


局 ,， 如 图 10- 1 所 示 ° 
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图 10-1 设置 用 Ganglia 收 集 HBase 的 监控 指标 信息 。 注 意 下 拉 监 控 
指标 列表 中 的 HBase 和 JVM 监 控 指 标 列 表 


2. JMX 


除了 使 用 Hadoop 监 控 指 标 框架 和 输出 监控 指标 信息 之 外 ，HBase 也 可 
以 通过 JMX 输 出 监控 指标 信息 。 一 些 开 源 工 具 ， 如 Cacti 和 OpenTSDB， 
可 以 通过 JMX 收 集 监 控 指 标 信 息 。JMX 监 探 指标 信息 也 可 以 透 过 Master 


和 RegionServer 的 Web 用 户 界面 以 JSON 格 式 得 看 。 


加 Master 的 JMX 监控 指标 信息 : http:/master_ip_address:porUjmx 。 


四 某 个 特定 RegionServer 的 JMX 监控 指标 信息 : 


http://region_server_ip _address:port/jmx ° 


Master 的 默认 端口 是 60010，RegionServer 的 默认 端口 是 60030。 


3. 基于 文件 

HBase 还 可 以 被 配置 为 把 监控 指标 信息 输出 到 平面 文件 里 。 监 控 指 
标 信 息 自 动 添加 到 文件 末尾 。 基 于 context 实现 的 不 同 ， 添 加 的 监控 指 
标 信 息 可 以 市 或 者 不 这 时 间 崔 。 因 为 基于 文件 的 监控 指标 信息 以 后 难 
以 使 用 ， 所 以 这 不 是 一 种 令 人 满意 的 记录 监控 指标 的 方法 。 虽 然 我 们 
没有 遇 到 过 把 监控 指标 信息 记录 到 文件 里 进行 动态 监控 的 产品 ， 但 这 
仍然 是 记录 监控 指标 信息 供 将 来 分 析 的 一 种 选择 。 

要 把 监控 指标 信息 记录 到 文件 里 ，hadoop-metrics.properties 文件 的 
配置 内 容 如 下 : 


hbase.class=org.apache.hadoop.hbase.metrics.file.TimeStampingFileContext 
hbase .period=10 

hbase.fileName=/tmp/metrics _hbase.1og 
jvm.class=org.apache.hadoop.hbase.metrics.file.TimeStampingFileContext 
jvm.period=10 

jvm.fileName=/tmp/metrics jvm.log 
rpc.class=org.apache.hadoop.hbase.metrics.file.TimeStampingFileContext 
rpc.period=10 

rpc.fileName=/tmp/metrics rpc.log 


让 我 们 看 看 HBase 输 出 的 这 些 监控 指标 ， 你 可 以 通过 它们 来 洞察 集 
群 的 健康 状况 和 性 能 


10.1.3 HBase 监控 指标 


Master 和 RegionServer 可 以 输出 监控 指标 信息 。 你 不 需要 为 了 理解 
这 些 监控 指标 而 研究 HBase 的 代码 ， 但 是 如 有 果 你 有 很 强 的 求知 欲 ， 想 
知道 如 何 生 成 这 些 监 控 指标 信息 以 及 监控 指标 框架 的 内 部 工作 原理 的 
话 ， 我 们 或 励 你 去 阅读 代码 。 和 和 
什么 监控 指标 让 人 感 兴趣 呢 ? 这 取决 于 集群 支撑 的 工作 负载 ， 我 
们 将 对 这 些 监 控 指 标 进行 相应 分 类 。 首 先 我 们 人 研究 跟 集 群 工作 人 负载 类 
型 无 天 的 通用 监控 指标 ， 然 后 我 们 会 分 别 研 究 与 读 写 操作 有 关 的 监控 
a 
通用 监控 指标 


无 论 运 行 任何 类 型 的 工作 负载 ， 系 统 负载 、 网 络 统计 信息 、 
RPC、 活 着 的 region、JVM 堆 和 JVM 线 程 等 相关 监控 指标 都 是 让 人 感 兴 
趣 的 ， 它 们 可 以 用 来 解释 系统 的 表现 。Master 的 用 户 界面 展示 了 JVM 
堆 的 使 用 情况 以 及 RegionServer 服务 的 每 秒 请 求 数 (参见 图 10-2) 


Region Servers 


Ry Wer sh ED re i 一 -一 二 一 


[Wed hi 04 05: 13:46 UTC 2012| JrequestsPerSecond=2211, n umberOfOnlineRegions=41, usedHeapMB=1439, maxHeapMB=1974 | 
00 41378826720) Wed Jol 04 05:13:46 UTC 201 |requessPerSecond=2184, n 一 一 一 一 一 一 : usedHeapMB=1318, maxHeapMB=1974| 
0 826656 


图 10-2 HBase Master 的 Web 用 户 界面 展示 了 每 个 RegionServer 服 务 
的 每 秒 请 求 数 、RegionServer 上 在 线 的 region 数 量 以 及 使 用 过 的 最 大 的 

堆 。 当 你 要 查看 系统 状态 时 ， 这 是 一 个 有 用 的 开始 。 当 一 些 

RegionServer 停 止 服务 ， 从 它们 服务 的 region 和 服务 请 求 来 看 
RegionServer 的 负载 分 配 不 够 均衡 的 时 候 ， 或 者 RegionServer 被 错误 配 

置 以 致使 用 的 堆 太 少 的 时 候 ， 你 经 营 可 以 在 这 里 发 现 问题 所 在 

不 仅 HBase 的 监控 指标 很 重要 ， 来 自 支 撑 系 统 〈 如 HDFS、 底 层 
OS、 人 硬件 和 网 络 等 的 监控 指标 也 很 重要 ) 。HBase 系 统 表现 失常 的 根 
源 经 常 在 于 文 撑 系统 的 运行 表现 。 文 撑 系 统 层面 的 问题 通常 会 导致 整 
个 体系 其 他 部 分 产生 连锁 反应 ， 最 终 以 影响 到 客户 端 而 告终 。 由 于 支 
撑 系 统 不 可 预期 的 表现 ， 客 户 端 要 么 不 能 正常 工作 要 么 失败 。HBase 这 
样 的 分 布 式 系统 拥有 更 多 可 能 发 生 故 障 的 部 件 和 依靠 更 多 支撑 系统 
这 个 问题 更 加 明显 。 对 于 监控 指标 细 广 和 对 于 所 有 文 撑 系统 的 监控 的 
研究 超出 了 本 书 的 范围 ， 但 是 你 可 以 找到 充足 的 资源 来 研究 这 些 方 面 
[10] 。 

训 无 疑问 ， 需 要 监控 的 重要 内 容 有 如 下 几 项 。 

四 HDFS 知 吐 量 和 延迟 。 

田 HDFS 使 用 情况 。 


四 存储 硬盘 的 吞吐 量 。 

重 每 个 玫 点 的 网 络 知 吐 量 和 延迟 。 

系统 和 网 络 层面 的 信息 可 以 透 过 Ganglia (参见 图 10-3) 和 一 些 
Linux 工 具 (如 ]sof、top、iostat、netstat 等 ) 来 查看 。 如 果 你 在 管理 
HBase， 这 些 都 是 需要 学 会 的 好 用 的 工具 。 

一 个 值得 天 注 的 有 趣 的 监控 指标 是 CPU IO wait 百 分 比 。 这 个 监控 
指标 表示 CPU 在 等 待 硬盘 IO 上 面 所 花费 的 时 间 ， 这 是 一 个 很 好 的 判断 
系统 是 否 存 在 IO 瓶 贷 的 标志 。 如 采 系 统 存在 IO 诸 贷 ， 几 乎 所 有 人 情况 下 
你 都 需要 增加 硬盘 。 在 Ganglia 里 ， 一 个 运行 写 密集 型 工作 负载 的 集群 
的 CPU IO wait 百分比 的 图 形 如 图 10-4 所 示 。 当 读 IO 很 高 时 ， 这 个 监控 
指标 也 是 有 用 的 。 
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图 10-3 Ganglia 图 形 显示 了 整个 集群 的 总 体 情况 ， 包 括 负 载 、 
CPU、 内 存 和 网 络 等 监控 指标 
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图 10-4 CPU IO wait 百 分 比 是 一 个 有 用 的 监控 指标 ， 可 以 用 来 观察 


系统 的 硬 副 10 是 否 是 瓶 贷 所 在 。 这 些 Ganglia 图 形 显示 在 6 台 机 妖 中 有 5 
台 机 器 有 值得 注意 的 IO 压 力 。 这 是 一 个 写 密 集 型 工作 负载 的 表现 。 在 


这 些 机 瑚 上 增加 更 多 硬盘 可 以 通过 分 艇 IO 压力 来 提升 写 性 能 


我 们 已 经 讨论 了 在 运行 集群 中 需要 关注 的 一 些 通 用 监控 指标 。 现 


在 我 们 将 研究 与 读 有 关 的 和 与 写 有 天 的 监控 指标 。 


2. 与 写 有 关 的 监控 指标 
为 了 了 解 写 过 程 中 的 系统 状态 ， 需 要 关注 在 数据 写 入 系统 时 收集 


的 监控 指标 。 它 们 是 与 MemStore、 刷 写 、 人 合并、 垃圾 回收 和 HDFS IO 
有 关 的 监控 指标 。 


在 写 过 程 中 ， 理 想 的 MemStore 监 探 指标 图 形 看 起 来 应 该 是 饥 齿 


状 。 这 表明 MemStore 平 滑 的 刷 写 过 程 以 及 预料 之 中 的 垃圾 回收 开销 。 
在 Ganglia 里 ， 一 个 处 理 写 密集 型 负载 的 MemStore 大 小 监控 指标 如 图 10- 
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图 10-5 在 Ganglia 里 的 MemStore 大 小 监控 指标 。 这 不 是 一 个 理想 图 
它 表 明 对 垃圾 回收 和 其 他 HBase 的 配置 进行 优化 可 能 会 改善 性 能 


要 了 解 HDFS 写 延 迟 ，fWriteLatency 和 fsSyncLatency 监控 指标 
候 有 用 的 。 写 延迟 监控 指标 包括 写 HFile 延迟 和 写 WAL 延迟 。 同 步 延 


还 监控 指标 只 针对 WAL。 
II 致 合并 队列 变 长 (参见 图 10-6) 。 
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图 10. 6 在 写 密集 型 负载 时 合并 队列 变 De . 注意 一 部 分 主机 上 的 
合并 队列 比 其 他 主机 的 长 。 这 可 能 表明 这 些 RegionServer 上 的 写 压 力 比 
其 他 的 融 
垃圾 回收 监控 指标 由 JVM 通 过 监控 指标 context 输 出 ， 你 可 以 在 
Ganglia 里 找到 它们 ， 通 常 以 ee 。 查看 垃圾 回收 时 
发 生 什么 情况 的 男 一 个 有 用 的 方法 是 ， 在 RegionServer 的 Java 属性 里 

(在 hbase-env.sh 文件 里 ) 放 入 -Xloggc:/my/logs/directory/hbase- 
regionserver-gc.log 标记 来 打开 垃圾 回收 日 志 。 在 写 密 集 型 负载 情况 下 
处 理 没 有 啊 应 的 RegionServer 进 程 时 ， 这 可 以 得 到 有 Be 的 信息 。 这 种 
情况 的 一 个 常见 原因 是 垃圾 回收 暂停 时 间 太 长 了 ， 这 通常 意味 着 垃圾 
回收 没有 被 正确 优化 。 

3. 与 读 有 关 的 监控 指标 
读 过 程 和 写 过 程 是 不 同 的 ， 所 以 应 该 监控 的 监控 指标 也 是 不 同 
的 。 在 读 过 程 中 ， 除 了 我 们 开始 时 候 研究 过 的 通用 监控 指标 之 外 ， 需 

要 关注 的 监控 指标 主要 是 与 BlockCache 有 关 。 有 关 缓 存 命 中 率 、 张 逐 

` 缓存 大 小 等 BlockCache 监 探 指标 在 了 解读 性 能 时 是 有 帮 


(eviction ) 


助 的 ， 你 可 以 相应 优化 缓存 和 表 属 性 。 图 10-7 显示 了 在 读 密 集 型 负载 
时 的 缓存 大 小 监控 指标 。 
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图 10-7 在 读 密集 型 负载 时 捕获 的 BlockCache 大 小 监控 指标 。 该 监 
控 指标 表明 读 压 力 太 大 了 ， 并 上 且 使 一 个 RegionServer 下 线 了 (就 是 左上 
角 的 机 器 ) 。 如 果 发 生 这 种 情况 ， 应 该 设置 运 维 系统 来 提醒 人 你。 如果 
只 是 一 人 台 机 器 下 线 ， 还 没有 严重 到 在 半夜 呼叫 你 的 程度 。 但 是 如 果 多 
台 机 器 下 线 ， 你 就 矿 烦 了 


10.1.4 监 


监控 HBase 的 工具 可 能 展示 给 你 表现 恨 好 的 图 形 ， 系 统 层 面 的 一 切 
稳定 运行 。 但 是 这 不 意味 着 整个 应 用 系统 运行 良好 。 在 一 个 生产 环境 
中 ， 我 们 建议 你 在 使 用 Ganglia 和 其 他 工具 提供 的 系统 层面 的 监控 之 
外 ， 还 要 从 应 用 的 视角 监控 HBase 的 表现 。 这 种 应 用 瑞 监控 可 能 是 根据 
应 用 系统 使 用 HBase 的 方式 定制 实现 的 一 种 东西 。HBase 社 区 还 没有 为 
此 提供 模板 ， 但 是 将 来 可 能 会 有 变化 。 你 也 可 以 发 挥 主动 性 ， 为 此 做 
出 贡献 。 

从 应 用 视角 监控 HBase 时 ， 下 面 的 内 容 是 有 帮助 的 。 

加 从 客户 端 (应 用 ) 观察 的 每 个 RegionServer 的 Put 性 能 。 

四 从 客户 端 观 察 的 每 个 RegionServer 的 Get 性 能 。 

四 从 客户 端 观 察 的 每 个 RegionServer 的 Scan 性 能 。 

加 下达 所 有 RegionServer 的 连通 性 。 


四 以 用 层 和 HBase 集群 之 间 的 网 络 延 迟 。 

是 在 任何 时 间 点 连接 到 HBase 的 并 发 客户 端 数量 。 

加 下 大 ZooKeeper 的 连通 性 。 

查看 这 些 监控 指标 可 以 让 你 了 解 应 用 端的 HBase 表现 ， 你 可 以 把 
这 些 监控 指标 和 HBase 层 面 的 监控 指标 联系 起 来 ， 以 便 更 好 地 了 解 应 用 
系统 的 表现 。 这 是 一 个 需要 你 和 系统 管理 员 以 及 运 维 团队 携手 工作 的 
解决 方案 。 长 期 来 看 ， 在 这 个 方面 投入 时 间 和 精力 ， 在 生产 环境 中 运 
营 应 用 系统 时 你 会 受益 的 。 


10.2 HBase 性 能 


任何 数据 库 的 性 能 都 是 根据 所 支持 操作 的 响应 时 间 来 衡量 的 。 为 
了 给 用 户 设 置 合理 的 期 望 值 ， 在 应 用 环境 里 的 性 能 测量 是 很 重要 的 。 
例如 ， 由 HBase 集群 文 撑 的 应 用 系统 的 用 户 在 点 击 一 个 按钮 时 不 应 该 
为 了 响应 等 待 数 十 秒 。 理 想 情况 下 ， 它 应 该 在 县 秒 级 完成 。 当 然 ， 这 
不 是 一 个 通用 规则 ， 很 大 程度 上 取决 于 用 户 使 用 的 交互 类 型 。 

为 了 确保 HBase 集群 运行 在 期 望 的 SLA 里 ， 你 必须 全 面 测试 其 性 
能 ， 并 且 优 化 集群 发 挥 你 能 得 到 的 最 佳 性 能 。 本 市 会 研究 测试 集群 性 
能 的 各 种 方法 ， 然 后 会 研究 影响 性 能 的 因素 。 随 后 ， 我 们 会 研究 各 种 
可 用 的 优化 系统 的 技巧 。 

10.2.11 . 


你 可 以 使 用 一 些 不 同 的 方法 来 测试 HBase 集群 的 性 能 。 最 好 的 方 
法 是 模拟 运行 应 用 系统 在 生产 环境 里 可 能 使 用 的 真实 的 工作 人 负载。 但 
征 ， 如 有 果 不 局 动 一 个 beta 厂 让 选择 过 的 用 户 进行 访问 ， 你 不 一 定 能 模拟 
真实 负载 来 测试 集群 的 性 能 。 理 想 情况 下 ， 在 此 之 前 你 需要 运行 某 种 
性 能 水 平 测 试 ， 以 便 对 性 能 建立 某 种 程度 的 信心 。 


注意 在 测试 集群 性 能 之 前 ， 如 果 可 以 建立 好 监控 框架 是 大 有 帮助 
的 。 请 安装 监控 框架 ! 有 了 它 你 会 比 没有 它 更 加 深入 地 了 解 系 统 的 表 
现 。 

1. 随 HBase 预 装 的 性 能 评估 工具 

HBase 目 带 一 个 叫做 PerformanceEvaluation 的 工具 ， 你 可 以 使 用 它 
从 各 种 操作 的 角度 评估 HBase 集群 的 性 能 。 这 个 工具 源 于 在 Google 的 
Big Table 论文 里 介绍 的 性 能 评估 工具 。 为 了 了 解 该 工具 的 使 用 细 方 ， 
你 可 以 不 带 任 何 参数 执行 它 : 


$ $HBASE _ HOME/bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation 


Usage: java org.apache.hadoop.hbase.PerformanceEvaluation \ 


[--miniCluster] [--nomapred] [--rows=ROWS] <command> <nclients> 
Options: 
miniCluster Run the test on an HBaseMiniCluster 
nomapred Run multiple clients using threads 
(rather than use mapreduce) 
rows Rows each client runs. Default: One million 
flushCommits Used to determine if the test should 
flush the table. Default: false 

writeToWwAL Set writeToWAL on puts. Default: True 
Commana : 

filterScan Run scan test using a filter to find 


a specific row based on its value 
(make sure to use --rows=20) 


randomRead Run random read test 
randomSeekScan Run random seek and scan 100 test 


randomWrite Run random write test 

scan Run scan test (read every row) 

scanRange10 Run random seek scan with both start 
and stop row (max 10 rows) 

scanRange100 Run random seek scan with both start 


and stop row (max 100 rows) 
scanRange1000 Run random seek scan with both start 

and stop row (max 1000 rows) 
scanRange10000 Run random seek Scan with both start 

and stop row (max 10000 rows) 
sequentialRead Run sequential read test 
sequentialWrite Run sequential write test 


Args: 
nclients Integer. Required. Total number 
of clients (and HRegionServers) 
runnings 1 = Value <= .500 
Examples: 


To run a single evaluation client: 
$ bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1 


如 同 你 从 使 用 细节 里 看 到 的 ， 你 可 以 使 用 该 工具 执行 各 种 测试 。 
除非 你 把 客户 端 数量 设置 为 1 (此 时 它们 会 以 单线 程 客户 端 形式 运 
行 ) ， 否 则 它们 都 会 以 MapReduce 作 业 形式 运行 。 你 可 以 设置 每 个 客户 
端 读 写 行 的 数量 和 客户 端的 数量 。 先 执行 sequentialWrite 或 者 
randomWrite 命 令 ， 以 便 它 们 创建 一 张 表 并 且 写 入 一 些 数 据 。 随 后 这 张 
表 和 数据 被 用 来 执行 读 测 试 ， 如 randomRead、scan、 和 
sequentialRead。 该 工具 不 需要 你 手工 创建 表 ， 当 你 运行 命令 往 HBase 写 
入 数据 时 ， 它 会 自行 创建 。 

如 果 你 只 关心 随机 读 写 的 性 能 表现 ， 你 可 以 从 集群 外 部 任何 地 方 
运行 这 个 工具 ， 只 要 那些 地 方 有 HBase JAR 
行 。MapReduce 作业 可 以 从 安装 MapReduce 框 架 的 任何 地 方 运行 ， 

想 情 况 下 MapReduce 框 架 不 应 该 和 HBase 集 群 并 行 部 署 在 一 起 es 
前 讨论 过 这 个 问题 ) 。 
运行 该 工具 的 一 个 例子 如 下 所 示 : 


$ hbase org.apache .hadqoop .hbase.PerformanceEvaluation --rows=10 
sequentialWrite 1 

12/06/18 15:59:29 WARN conf .Configuration: hadoop.native.lib is deprecated. 
Instead, use io.native.lib.available 

12/06/18 15:59:29 INFO Zookeeper.ZooKeeper: Client 
environment :Zookeeper.version=3.4.3-cdh4.0.0--1, built on 06/04/2012 
23:16 GMT 


12/06/18 15:59:29 INFO hbase.PerformanceEvaluation: 0/9/10 
12/06/18 15:59:29 INFO hbase.PerformanceEvaluation: Finished class 
org.apache.hadoop.hbase.PerformanceEvaluation$SequentialWriteTest 
in 14ms at offset 0 for 10 rows 


这 次 运行 使 用 单个 线程 顺序 写 入 了 10 行 数据 ， 为 此 花 了 14 毫 秒 。 

这 个 测试 工具 的 局 限 性 在 于 ， 如 采 你 不 能 目 己 编写 代码 残 不 能 运 
行 混合 的 工作 负载 。 这 种 测试 必须 是 预 痰 测试 中 的 一 种 ， 并 且 它 们 必 
须 分 开 单 独 执 行 。 如 果 你 的 工作 负载 包含 同时 发 生 的 Scan、Get 和 Put， 
这 个 工具 不 能 把 这 些 操作 混合 在 一 起 让 你 真实 测试 集群 。 这 个 问题 把 
我 们 市 到 下 一 个 测试 实用 工具 。 

2. YCSB 一 一 Yahool! 云 服务 性 能 基准 出 | 

在 第 1 章 ， 我 们 谈 到 各 个 公司 为 了 解决 它们 的 数据 管理 问题 而 开发 
的 NoSQL 系统 。 这 导致 了 关于 谁 比 谁 更 优秀 的 激烈 的 争论 和 比赛 。 虽 
然 看 起 来 很 有 趣 ， 但 是 当 比 较 不 同系 统 的 性 能 时 ， 这 也 使 事情 变 得 模 
糊 不 清 。 因 为 这 些 系统 为 不 同 的 使 用 场景 而 设计 并 且 做 了 不 同 的 取 
舍 ， 一 般 而 言 这 种 比较 十 分 困难 。 但 是 我 们 需要 一 种 比较 它们 的 标准 
方式 ， 现 在 仍然 缺少 这 种 行业 比较 标准 。 

Yahool! 投 资 研究 了 一 种 用 来 比较 不 同 数据 库 的 标准 性 能 测试 工 
具 。 这 个 组 织 叫做 Yahoo! 云 服务 性 能 基准 (Yahoo! Cloud Serving 
Benchmark) 。YCSB 是 一 种 最 接近 行业 标准 的 用 来 测量 和 比较 不 同 分 
布 式 数 据 库 性 能 的 基准 工具 。 虽 然 YCSB 被 设立 用 来 比较 系统 性 能 ， 
但 是 你 也 可 以 用 它 来 测试 它 所 文 持 的 数据 库 的 性 能 ， 包 括 HBase。 


YCSB 包 括 YCSB 客 户 端 〈 这 是 一 种 扩展 的 工作 负载 生成 器 ) 和 核心 工 
作 负 载 (一 组 预先 打包 的 、 可 以 由 YCSB 客 户 端 生成 的 工作 负载 )。 
YCSB 可 以 从 该 项 目的 GitHub 获得 (http://github.comy/ 
brianfrankcooper/YYCSB/) 。 你 必须 使 用 Maven 编 译 它 。 
开始 行动 ， 先 复制 Git 资 源 库 : 
$ git clone git://github.com/brianfrankcooper/YCSB.git 
CLOoning Into YCSB. 


Resolving deltas: 100% (906/906), done. 
复制 结束 后 ， 编 译 代码 : 
S ed YGSB 
$ mvn -DskipTests package 
YCSB 编 译 结束 后 ， 把 集群 的 配置 信息 写 入 
hbase/src/main/conf/hbase-site.xml。 你 只 需要 把 hbase.zookeeper.quorum 
属性 写 入 配置 文件 ， 以 便 YCSB 使 用 它 找到 集群 的 入 口 。 现 在 你 已 经 准 
备 好 运行 工作 负载 来 测试 集群 了 。YCSB 附 带 了 一 些 工作 负载 示例 ， 你 
可 以 在 workloads 目 录 下 找到 它们 。 我 们 在 本 例 中 使 用 其 中 的 一 个 ， 但 
是 你 可 以 针对 集群 的 测试 内 容 创建 自己 的 工作 负载 。 在 运行 工作 负载 
之 前 ， 你 必须 创建 YCSB 写 入 的 HBase 表 。 你 可 以 从 Shell 里 创建 表 : 
hbase (main) :002:0> create 'mytable', 'myfamily'! 
创建 表 以 后 ， 准 备 开 始 测试 集群 : 


$ bin/ycsb load hbase -P workloads/workloada -p columnfamily=myfamily \ 
-p table=mytable 


你 可 以 以 各 种 花样 使 用 YCSB 工 作 人 负载 ， 包 括 设 置 多 客户 端 、 设 置 
多 线程 和 采用 不 同 数据 统计 分 布 运行 混合 的 工作 负载 。 

现在 你 掌握 了 几 种 方法 来 测试 HBase 集 群 的 性 能 ， 在 集群 投入 生产 
环境 之 前 你 可 能 会 运行 这 种 测试 。 在 一 些 地 方 你 可 以 提升 集群 的 性 


能 。 为 了 了 解 这 一 点 ， 重 要 的 是 你 需要 熟悉 影响 HBase 性 能 的 各 种 因 


o [12] 


济 


.2.2 什么 晤 a 生 人 
HBase 是 一 种 分 布 式 数据 库 ， 与 Hadoop 紧 密 结合 在 一 起 。 当 谈 到 性 
能 的 时 候 ， 这 使 得 HBase 很 容易 受到 支撑 它 的 整个 体系 (参见 图 10-8) 
的 影响 。 


CPU、 内 存 、 CPU、 内 存 、 CPU、 内 存 、 
硬盘 硬盘 硬盘 


CPU、 内 存 、 


硬盘 


图 10-8 HBase 和 它 的 文 撑 系 统 。 每 种 文 撑 系 统 都 会 影响 HBase 的 性 
能 

从 构成 集群 机 器 的 底层 硬件 到 把 硬件 和 操作 系统 (尤其 是 文件 系 
统 ) 、JVM、HDFS 连 接 起 来 的 网 络 之 间 的 所 有 东西 都 会 影响 到 HBase 
和 性 能 。HBase 系统 的 状态 也 会 影响 到 HBase 的 性 能 。 例 如 ， 在 集群 中 
执行 合并 的 时 候 或 者 MemStore 刷 写 的 时 候 与 什么 都 没有 做 的 时 候 相 
比 ， 性 能 表现 是 不 同 的 。 应 用 系统 的 性 能 还 取决 于 它 和 HBase 的 交互 
方式 ， 所 以 模式 设计 和 其 他 环节 一 样 起 到 了 必 不 可 少 的 作用 。 


I 


在 评判 HBase 性 能 时 ， 所 有 这 些 因素 都 有 影响 ;在 优化 集群 时 ， 你 
需要 查看 所 有 这 些 因 素 。 深 入 优化 每 个 层面 超出 了 本 书 的 范围 。 我 们 
在 第 9 章 人 研究 过 JVM 优 化 〈 尤 其 是 垃圾 回收 机 制 ) 。 接 下 来 我 们 将 讨论 
优化 HBase 集 群 的 一 些 天 键 方 面 。 

10.2.3 优化 系 


优化 HBase 集群 使 其 发 挥 最 佳 性 能 涉及 优化 所 有 的 文 撑 系统 。 如 
末 你 明智 地 选择 硬件 和 操作 系统 ， 并 且 正 确 地 安装 它们 (遵照 HBase 社 
区 概括 的 以 及 第 9 章 重点 强调 的 最 佳 实践 ) ， 优 化 工作 和 它们 不 会 有 太 
多 关系 。 我 们 也 会 提 到 它们 ， 但 我 们 建议 在 这 些 方面 你 和 系统 管理 员 
携手 工作 以 确保 达到 目的 。 

1. 硬件 选择 

我 们 从 HBase 集 群 最 基本 的 构件 开始 一 一 硬件 。 请 确保 按照 我 们 在 
第 9 章 给 出 的 建议 选择 人 硬件。 我 们 这 里 不 重复 这 些 建议 。 但 是 总 而 言 
之 ， 选 择 充 足 的 硬盘 和 内 存 ， 但 是 不 要 走 极端 去 购买 最 移 进 的 硬件 。 
可 以 购买 商用 人 硬件， 但 是 数量 上 的 选择 高 于 质量 。 在 Hadoop 和 HBase 集 
群 的 情况 下 ， 水 平 扩展 方式 收获 更 好 。 

2. 网 络 配 置 

基于 当前 阶段 硬件 的 典型 分 布 式 系统 都 会 受到 网 络 限制 。HBase 也 
不 例外 。 在 节点 和 机 架 顶 置 (TOR) 交换 机 之 间 建 议 采 用 10 Gb 以 太 
网 。 不 要 过 于 满 配 地 使 用 网 络 ， 否 则 在 高 负载 时 你 会 看 到 性 能 影响 。 

3. 操作 系统 

只 要 使 用 Hadoop 和 HBase， 操 作 系 统 的 选择 就 是 Linux 。Red Hat 
系列 (Red Hat Enterprise Linux [RHEL]、CentOS) 和 Debian 系列 版 本 

Ubuntu 等 ) 的 Linux 上 面 都 有 了 一 些 成 功 的 部 署 。 选 择 文 持 较 好 的 一 

种 即 可 。 

4. 本 地 文件 系统 


本 地 Linux 文 件 系统 在 这 个 体系 里 起 到 了 重要 的 作用 ， 并 且 严 重 影 
啊 到 HBase 的 性 能 。 虽 然 Ext4 是 推荐 的 文件 系统 ， 但 是 Ext3 和 XFS 也 已 
经 在 生产 系统 里 得 到 成 功 使 用 。 按 照 第 9 章 里 我 们 的 建议 优化 本 地 文件 
系统 即 可 。 

5. HDFS 

HDFS 的 性 能 对 于 性 能 良好 的 HBase 和 集群 来 说 是 至 关 重 要 的 。 如 果 
你 已 经 正确 配置 了 底层 网 络 、 人 硬盘 和 本 地 文件 系统 ， 这 里 没有 太 多 需 
要 优化 的 。 

你 可 能 需要 考虑 的 另 一 个 配置 是 短 链 路 本 地 客户 端 读 (short- 
circuiting local client read) 。 这 个 特性 是 在 Hadoop 1.0 版 本 里 新 出 现 
的 ， 文 持 HDFS 客户 端 在 可 能 的 情况 下 直接 从 本 地 文件 系统 读数 据 块 。 
该 符 性 在 读 密 集 型 和 混合 型 工作 负载 的 情况 下 特别 有 用 。 在 hdfs- 
site.xml 文 件 里 通过 设置 dfs.client.read.shortcircuit 为 true 可 以 打开 该 特 
性 。 除 此 之 外 ， 你 要 做 的 就 是 优化 数据 xciever， 我 们 在 第 9 章 重 点 强调 


过 这 一 点 。 


10.2.4 HBase 


优化 HBase 集群 通常 涉及 优化 多 个 不 同 的 配置 参数 来 匹配 你 计划 
放 到 集群 上 的 工作 负载 。 当 你 在 集群 上 执行 性 能 测试 ， 以 及 使 用 第 9 章 
提 到 的 配置 信息 来 获得 正确 的 配置 参数 组 合 时 ， 你 需要 反复 尝试 优化 
很 多 个 参数 。 在 为 某 种 工作 人 负载 配置 HBase 时 ， 不 存在 拿 来 就 能 用 的 
秘诀 ， 但 是 你 可 以 和 演 试 把 它们 归 为 下 面 的 某 种 类 别 。 


加 随机 读 密集 型 。 


每 一 种 工作 负载 都 需要 一 种 不 同 的 优化 配置 组 合 ， 我 们 建议 你 反 
复试 难 来 找 出 最 佳 组 合 。 当 你 基于 上 述 分 类 优化 集群 时 ， 接 下 来 是 一 
些 供 你 使 用 的 指导 原则 。 

1. 随机 读 密 集 型 

对 于 随机 读 密集 型 工作 负载 ， 高 效 利 用 缓存 和 更 好 地 索引 会 带 给 
你 更 高 的 性 能 。 请 注意 表 10-1 里 列 出 的 配置 参数 。 

表 10-1 对 于 随机 读 密集 型 工作 负载 的 优化 提示 


配置 参数 建议 
hfile.block 块 缓存 是 读 缓存 (LRU)。 该 属性 定义 | 对 于 随机 读 密集 型 负载 ， 
a 块 缓存 可 以 使 用 的 堆 的 最 大 百分比 | 增加 缓存 使 用 的 堆 的 百 


分 比 


hbase.regionserver | upperLimit 定义 在 一 个 RegionServer | 对 于 随机 读 密集 型 负载 ， 

“global.memstore 上 MemStore 总 共 可 以 使 用 的 堆 的 最 | 在 增加 了 块 缓存 占用 堆 

Ey 大 百分比 。 遇 到 upperLimit 的 时 候 ， 的 总 量 的 机 器 上 ， 你 需要 

.global .memstore MemStore 被 刷 写 到 硬盘 ， 直到 过 到 使 用 这 些 参 数 来 减少 

.UpperLimit lowerLimit 时 停止 。 把 这 两 个 参数 | MemStore 占用 的 百分比 
的 值 设 置 为 彼此 相等 意味 着 发 生 的 刷 


.lowerLimit 


写 数 据 量 最 小 ， 那 时 因为 
upperLimit 一 直 被 遇 到 所 以 写 操作 
被 阻塞 。 这 样 做 会 把 写 过 程 中 的 暂停 
时 间 降 到 最 短 ， 但 是 也 会 导致 更 加 频 
繁 的 刷 写 动作 


HFile 数据 块 大 小 该 参数 被 设置 作为 指定 表 的 列 族 配置 | 数据 块 越 小 ， 则 索引 的 粒 
的 一 部 分 ， 如 下 所 示 : 度 越 细 。64 KB 是 一 个 不 
hbase (main) :002:0> create 错 的 起 点 ， 但 是 你 应 该 试 


'mytable'，{NAME => 'colfam1'，| 试 更 小 的 值 来 看 看 性 能 是 
BLOCKSIZE => '65536'} 否 有 所 提升 


配置 参数 建 议 

布 隆 过 滤器 可 以 在 列 族 层次 打开 布 隆 过 滤器 ， 如 | 打开 布 隆 过 滤器 可 以 减少 为 
下 所 示 : 查找 指定 行 的 Key Value 
hbase (main) :007:0> create 对 象 而 读 取 的 HFile 的 数量 
'mytable', {NAME => 'colfaml', 
BLOOMFILTER => 'ROWCOL'} 

激进 缓存 可 以 在 列 族 层 次 设置 该 参数 ， 以 便 它们 | 该 参数 可 以 提升 随机 读 性 
可 以 比 其 他 列 族 更 激进 地 进行 缓存 ， 如 | 能 。 打 开 它 ， 试 试看 在 你 的 
下 所 示 : 使 用 场景 下 有 多 大 帮助 


hbase (main) :002:0> create 
'mytable', {NAME => 'colfaml', 
IN MEMORY => 'true'} 


关闭 其 他 表 和 列 族 的 | 可 以 在 列 族 层次 设置 ， 在 读 的 时 候 | 如 果 一 些 列 族 被 用 于 随机 读 

绥 存 不 在 Blockcache 里 进行 缓存 , 如 下 | 而 其 他 列 族 没有 被 用 到 , 没有 
所 示 : 被 用 到 的 列 族 可 能 会 污染 组 
hbase (main) :002:0> create 存 。 关闭 它 们 的 缓存 会 提升 你 
'mytable'，{NAME => 'colfam1'，| 的 缓存 命中 率 
BLOCKCACHE => 'false’} 


2. 顺序 读 密集 型 
对 于 顺序 读 密集 型 工作 负载 ， 读 缓存 不 会 带 来 太 多 好 处 ;除非 顺 
序 读 的 规模 很 小 并 且 限 定 在 一 个 特定 的 行 键 范 围 ， 否 则 很 可 能 使 用 组 
存 会 比 不 使 用 缓存 需要 更 频繁 地 访问 硬盘 。 请 注意 表 10-2 里 的 配置 参 
Lo 
表 10-2 对 于 顺序 读 密 集 型 工作 负载 的 优化 提示 


配置 参数 


HFile 数据 块 大 小 该 参数 被 设置 作为 指定 表 的 列 族 
配置 的 一 部 分 ， 如 下 所 示 : 
hbase (main) :002:0> 
create ‘'mytable', {NAME 
= BLOCKSIZE 
=> 


Wol FamLls, 
"E553 


hbase.client 
.Scanner.caching 


该 参数 定义 了 在 扫描 器 上 调用 
next 方法 时 取 回 的 行 的 数量 .该 
数字 越 高 ， 在 扫描 过 程 中 客户 端 
需要 问 Region Server 发 出 的 远程 
调用 越 少 。 该 数字 越 高 也 意味 着 
客户 端 使 用 的 内 存 越 多 。 该 参数 
可 以 在 配置 对 象 里 基于 每 个 客户 
端 分 别 进行 设置 


配置 参数 


通过 Scan .setCache 
Blocks (..) API 关 闭 数 | 应 该 放 进 块 缓存 


议 

数据 块 越 大 , 则 每 次 硬盘 寻 道 时 间 
可 以 取出 的 数据 越 多 。64 KB 是 一 
个 好 起 点 , 但 你 应 该 试 试 更 大 的 值 
来 看 看 性 能 是 否 有 所 提升 。 如 果 该 
值 太 大 , 为 扫描 定位 起 始 键 的 时 候 
性 能 会 降低 


请 设置 较 高 的 扫描 器 缓存 值 ， 以 便 
在 执行 大 规模 顺序 读 时 每 次 RPC 请 
求 扫描 器 可 以 取 回 更 多 行 。 默 认 值 
是 1。 请 把 它 调 为 比 每 次 扫描 循环 预 
期 读 的 内 容 略 高 一 点 儿 的 值 。 根 据 
尔 的 应 用 逻辑 以 及 在 网 络 上 返回 的 
行 的 大 小 , 缓存 值 可 能 是 50 或 1000 


续 表 
议 


该 参数 定义 被 扫描 的 数据 块 是 否 | 把 一 个 扫描 器 读 取 的 所 有 数据 


块 放 进 块 缓存 会 导致 翻腾 缓存 


据 块 的 缓存 次 数 太 多 。 对 于 大 规模 扫描 ， 
可 以 把 该 参数 设置 为 false 来 
关闭 数据 块 的 缓存 

关闭 表 的 缓存 可 以 设置 列 族 ， 在 读 的 时 候 不 被 | 如 果 一 张 表 主 要 使 用 大 规模 

缓存 到 块 缓存 ， 如 下 所 示 : 扫描 的 访问 方式 ， 那 么 它 的 

hbase (main) :002:0> 缓存 很 可 能 个 会 提升 性 能 。 

create 'mytable', {NAME 相反 ,你 会 不 断 地 翻腾 缓存 ， 

=> 'colfaml'，BLOCKCACHE | 影响 其 他 较 小 的 随机 读 访问 

=> 'false'’} 方式 的 表 。 你 可 以 关闭 块 绥 
存 以 便 每 次 扫描 时 不 再 翻腾 
缓存 

3， 写 密集 型 


写 密 集 型 工作 负载 的 优化 方法 需要 有 别 于 读 密集 型 负载 。 绥 存 不 


再 起 到 重要 作用 。 写 操作 总 是 进入 MemStore， 


然后 被 刷 写 生成 新 的 


HFile， 以 后 再 被 合并 。 获 得 更 好 写 性 能 的 办 法 古 不 要 太 频 繁 刷 写 、 合 


并 或 者 拆 分 ， 因 为 在 这 段 时 间 里 IO 压力 上 升 ， 系 统 会 变 慢 。 在 优化 写 
密集 型 工作 负载 时 ， 表 10-3 里 的 配置 参数 是 很 有 价值 的 。 
表 10-3 对 于 写 密集 型 工作 负载 的 优化 提示 


配置 参数 


hbase.hregion.max 该 参数 决定 底层 存储 文件 | region 越 大 意味 着 在 写 的 时 候 
es (HStorePile) 的 最 大 大 小 。 该 | 拆 分 越 少 。 请 调 高 该 数字 ， 看 
参数 定义 了 region 的 大 小 。 如 果 | 看 什么 情况 下 在 你 的 使 用 场景 
列 族 的 存储 文件 超过 这 个 大 小 ， | 里 可 以 得 到 最 优 的 性 能 。 我 们 


该 region 将 被 拆 分 遇 到 过 的 region 大 小 ， 范 围 从 
256MB 到 4 GB 不 等 1 GB 是 
个 开始 测试 的 好 起 点 
hbase.hregion 该 参数 定义 MemStore 的 大 小 ， | 刷 写 到 HDFS 的 数据 越 多 ， 生 
"memstore.fivsh | 以 字 节 为 单位 进行 设置 。 当 | 成 的 HFile 越 大 ， 会 在 写 的 时 


.Size MemStore 超过 这 个 大 小 时 会 被 | 候 减 少 生成 文件 的 数量 ， 从 而 
刷 写 到 硬盘 。 一 个 周期 性 运行 的 | 减少 合并 的 次 数 
线程 会 检查 MemStore 的 大 小 


配置 参数 


hbase.regionserver 
.global .memstore 
.lowerLimit 和 
hbase.regionserver 
.global 

.memstore 
.UpperLimit 


ugeerLimit 定义 在 一 个 
RegionServer 上 MemStore 总 共 可 
以 使 用 的 堆 的 最 大 百分比 。 遇 到 
upperLimit 的 时 候 , MemStore 
被 刷 写 到 人 硬盘， 直到 过 到 
lowerLimit 时 停止 。 把 这 两 个 
参数 的 值 设置 为 彼此 相等 意味 着 
发 生 的 刷 写 数据 量 最 小 ， 那 时 因 
为 upperLimit 一 直 被 遇 到 所 
以 写 操作 被 阻塞 。 这 样 做 会 把 写 
过 程 中 的 暂停 时 间 降 到 最 短 ， 但 
是 也 会 导致 更 加 频繁 的 刷 写 动作 


你 可 以 在 每 台 RegionServer 上 增 
加 分 配给 MemStore 的 堆 的 比例 。 
但 也 不 要 走 极 端 ， 因 为 这 会 导致 
垃圾 回收 问题 。 把 upper Limit 
设 为 这 样 的 值 : 能 够 容纳 每 个 
region 的 MemStore 乘 以 每 个 
Region Server 上 预期 region 的 数量 


垃圾 回收 优化 


hbase.hregion 
.memstore.mslab 
.enabled 


4. 混合 型 


MemStore-Local Allocation Buffer 
是 HBase 的 一 个 特性 ， 在 发 生 写 
密集 型 负载 时 ， 它 有 助 于 防止 堆 
的 碎片 化 。 一 些 情况 下 ， 如 果 堆 
太 大 ， 打 开 这 个 特性 有 助 于 减轻 
垃圾 回收 暂停 时 间 太 长 的 问题 。 
该 参数 的 默认 值 是 true 


在 提 到 HBase 集群 的 写 性 能 时 ， 
Java 的 垃圾 回收 发 挥 了 重要 的 作 
用 。 参 见 第 9 章 提 供 的 建议 ， 请 
基于 这 些 建议 进行 优化 


请 打开 该 特性 ， 可 以 给 你 更 好 的 
写 性 能 和 更 稳定 的 操作 


对 于 完全 混合 型 工作 人 负载， 优化 方法 变 得 有 些 复 洒 。 你 需要 混合 
调整 前 面 介绍 的 参数 来 得 到 一 个 最 优 的 组 合 。 可 以 有 反复 竹 试 各 种 组 
合 ， 然 后 运行 性 能 测试 ， 来 观察 什么 情况 下 能 够 得 到 最 佳 结 

除了 前 面 介绍 的 配置 参数 以 外 ， 一 般 来 说 影响 性 能 的 因素 还 有 下 


面 这 时 3 


四 压缩 一 一 使 用 压缩 可 以 减少 集群 上 的 IO 压力。 如 同 第 4 章 介 绍 
的 ， 压 缩 可 以 在 列 族 层次 打开 。 这 可 以 在 创建 表 时 或 者 更 改 表 模式 时 


进行 设置 。 


自行 键 设计 一 一 提高 集群 的 性 能 并 不 局 限 在 集群 是 如 何 运行 的 ， 很 
大 程度 上 与 你 使 用 集群 的 方式 有 关 。 前 面 所 有 章节 的 目的 在 于 让 你 掌 


握 足 够 的 知识 来 优化 地 设计 应 用 系统 。 其 中 很 大 篇 幅 是 根据 你 的 访问 
模式 优化 行 键 设计 。 请 注意 这 一 点 。 如 果 你 认为 你 已 经 设计 了 可 能 的 
最 好 的 行 刍 ， 再 检查 一 裔 ， 你 可 能 会 想 出 更 好 的 东西 。 如 何 强 调 好 的 
行 键 设计 的 重要 性 都 不 为 过 。 

加 大 合并 一 一 大 合并 势必 要 求 所 有 RegionServer 合 并 它们 服务 的 所 
有 HFile。 我 们 建议 手工 处 理 大 合并 ， 在 预期 集群 负载 最 小 的 时 候 执 
行 。 这 一 点 可 以 在 hbase-site.xml 配 置 文件 里 使 用 
hbase.hregion.majorcompaction 参 数 来 进行 设置 。 

加 RegionServer 处 理 程序 计数 一 一 处 理 程序 是 RegionServer 上 接收 
RPC 请 求 的 线程 。 如 果 让 处 理 程序 数 太 低 ， 就 不 能 够 充分 发 挥 
RegionServer 的 能 力 。 如 果 让 它 太 高 ， 又 把 自己 处 于 过 量 使 用 资源 的 风 
险 里 。 在 hbase-site.xml 文件 里 使 用 hbase. regionserver.handler.count 参 
数 可 以 优化 这 个 配置 。 请 优化 该 配置 参数 来 观察 在 什么 情况 下 可 以 得 
到 最 优 的 性 能 。 很 可 能 你 会 使 用 比 该 参数 的 默认 值 高 一 些 的 值 。 


10.3 集群 管理 


在 运行 一 个 生产 系统 期 间 ， 在 不 同 阶段 都 需要 执行 管理 任务 。 尽 
管 HBase 是 一 种 拥有 各 种 容错 技术 和 内 建 高 可 用 性 的 分 布 式 系统 ， 它 仍 
然 需 要 每 天 给 予 适 度 的 关注 。 比 如 像 局 动 或 停止 集群 、 升 级 节点 上 的 
OS、 替 换 坏 硬件 和 备份 数据 等 事情 都 是 重要 的 任务 ， 你 需要 正确 处 理 
它们 以 保证 集群 平 渭 运行 。 有 时 候 这 些 任 务 是 对 人 硬件 故障 事件 的 肥 
应 ， 其 他 时 候 这 些 任 务 完全 是 为 了 更 新 到 最 新 、 最 好 的 版 本 。 

本 市 突出 强调 了 一 些 需 要 执行 的 重要 任务 ， 并 且 指 导 你 如 何 处 理 
它们 。HBase 是 一 种 快速 发 展 中 的 系统 ， 不 是 所 有 的 问题 都 已 经 个 解 决 
了 。 直 到 最 近 ，HBase 大 多 由 非常 熟悉 内 部 工作 机 制 的 人 们 (包括 一 些 
代码 提交 人 ) 来 运营 。 社 区 还 没有 把 太 多 注意 力 放 在 制作 自动 化 管理 


工具 以 人 简化 运 谨 的 方面 。 因 此 ， 我 们 在 本 市 研究 的 一 些 内 容 比 其 他 内 
容 需 要 有 更 多 的 手工 和 干预。 这些 内 容 可 能 束 像 一 本 运 维 手册 ， 供 集群 
管理 员 在 需要 时 参考 使 用 。 准 备 好 动手 试 试 吧 。 


10.3.1 局 云 止 HBase 


启动 和 停止 HBase 守 护 进程 可 能 比 你 预期 的 情况 要 更 常见 一 些 ， 尤 
其 是 在 安装 集群 和 系统 运行 的 早期 阶段 。 对 于 这 种 操作 ， 配 置 改变 是 
最 第 见 的 原因 。 你 可 以 用 不 同方 式 完 成 这 种 操作 ， 但 是 底层 规则 是 一 
样 的 。 支 撑 系 统 (HDFS 和 ZooKeeper) 必须 在 HBase 启 动 之 前 局 动 起 来 
并 且 应 该 在 HBase 关闭 之 后 关闭 ， 其 他 时 候 HBase 守护 进程 停止 和 局 
动 的 次 序 是 无 所 谓 的 。 

1. 脚本 

不 同 的 发 行 版 本 提供 了 不 同 的 启动 /停止 守护 进程 的 脚本 。 原 生 的 
Apache 发 行 版 提供 了 下 面 的 脚本 (在 $4HBASE_HOME/bin 目 录 里 ) 供 你 
使 用 。 

@@ hbase-daemon.sh 一 一 启动 /停止 单个 进程 。 它 必须 在 运行 HBase 
守护 进程 的 每 台 机 器 上 运行 ， 这 意味 着 你 必须 手工 登录 进入 集群 中 的 
所 有 机 硕 。 使 用 句法 如 下 所 示 : 


$HBASE HOME/bin/hbase-daemon.sh [start/stop/restart] [regionserver/ 
master] 


六 


中 了 


加 hbase-daemons.sh 一 一 封装 了 hbase-daemon.sh 脚 本 ， 它 通过 SSH 
登录 进入 打算 运行 某 个 特定 守护 进程 和 执行 hbase-daemon.sh 的 主机 。 
它 可 以 用 来 启动 HBase Master、RegionServer 和 ZooKeeper (如 果 由 
HBase 管 理 的话 ) 。 它 需要 在 运行 该 脚本 的 主机 和 所 有 登录 进去 执行 远 
程 命令 的 主机 之 间 文 持 无 密码 SSH 连 氨 。 

加 Start-hbase.Sh 一 一 封装 了 hbase-daemons.sh 和 hbase-daemon.sh， 它 
可 以 用 来 从 一 个 节点 启动 整个 HBase 集 群 。 它 和 hbase-daemons.sh 一 样 
需要 无 密码 SSH 连 接 。 通 常 该 脚本 在 HBase Master 节 点 上 运行 。 它 在 本 


机 局 动 HBase Master， 然 后 在 配置 目录 下 的 backup-masters 文 件 里 指定 
的 廊 点 上 启动 备份 Master。 该 脚本 根据 配置 目录 下 的 RegionServers 文 件 
编译 RegionServer 列 表 。 

国 Stop-hbase.sh 
hbase.sh 脚 本 。 

CDH 发 行 版 本 提供 了 init 脚 本 ， 不 使 用 原生 的 Apache 发 行 版 本 提供 
的 脚本 。 这 些 脚本 位 于 /etcwinit.d/hbase-<daemon>.sh， 可 以 用 来 启动 、 
停止 或 者 重启 守护 进程 。 

2. 集中 式 管 理 

可 以 使 用 像 Puppet 和 Chef 这 样 的 集群 管理 框架 ， 从 一 个 中 心 位 置 管 
理 守 护 进程 的 启动 和 停止 。 也 可 以 为 此 使 用 像 Cloudera Manager 这 样 的 
专 有 工具 。 通 常 使 用 无 密码 SSH 连 接 会 市 来 一 些 安 全 顾 虚 ， 许 多 系统 管 
理 员 会 设法 寻找 其 他 替代 方案 。 

10.3.2 止 和 让 节点 退 和 


当 你 由 于 某 种 管理 原因 〈 升 级 、 更 换 硬 件 等 ) 需要 在 单 台 机 器 上 
停止 守护 进程 时 ， 你 需要 确保 集群 的 其 他 部 分 正常 工作 ， 并 且 确 保 从 
客户 端 应 用 来 看 停 用 时 间 最 短 。 这 势必 要 把 那 台 RegionServer 服务 的 
region 主动 转移 到 其 他 RegionServer 上 ， 而 不 是 让 HBase 被 动 地 对 那 
个 RegionServer 的 下 线 进 行 反 应 。HBase 可 以 从 一 个 下 线 的 
RegionServer 状 态 恢 复 ， 但 是 它 需要 等 竺 检测 出 那个 RegionServer 下 线 
了 ， 然 后 在 其 他 地 方 重新 分 配 region。 同 时 ， 应 用 系统 可 能 会 经 历 一 次 
可 用 性 的 轻微 降级 。 如 果 能 够 主动 转移 region 到 其 他 RegionServer， 然 
后 杀 掉 那个 RegionServer 会 让 该 过 程 更 安全 一 些 。 

为 此 ，HBase 提 供 了 graceful-stop.sh 肢 本。 就 像 我 们 讨论 过 的 其 他 
脚本 一 样 ， 这 个 脚本 也 位 于 $HBASFE_HOME/bin 目 录 下 : 


停止 HBase 集群 。 其 执行 方式 类 似 于 start- 


$ bin/graceful_stop .sh 


Usage: graceful stop.sh [==config <conf-dir>] [-=restart] [=--zeload] 
[--thrift] [--rest] <hostname> 
thaift If we should stop/start thrift before/after the 
hbase stop/start 
rest If we should stop/start rest before/after the hbase stop/start 
restart If we should restart after graceful stop 
reload Move offloaded regions back on to the stopped server 
debug Move offloaded regions back on to the stopped server 
hostname Hostname of server we are to stop 


该 脚本 按照 下 面 步骤 〈 按 顺序 ) 优雅 停止 一 个 RegionServer 。 
(1) 关闭 region 均 衡器 。 
(2) 从 那个 RegionServer 上 移出 region， 随 机 把 它们 分 配给 集群 中 
其 他 服务 器 。 
(3) 如 果 REST 和 Thrift 服 务 处 于 运行 状态 的 话 ， 停 止 它们 。 
(4) 停止 RegionServerj 进 程 。 

该 脚本 也 需要 从 运行 脚本 的 节点 到 需要 停止 的 RegionServer 点 
上 的 无 密码 SSH 连 授 。 如 果 不 文 持 无 密码 SSH 连接 ， 你 可 以 查看 该 脚 
本 的 源 代码 ， 修 改 并 实现 在 你 的 环境 里 可 以 工作 的 版 本 。 

让 节点 退役 是 个 重要 的 管理 任务 ， 它 的 第 一 步 是 使 用 优雅 停止 机 
制 来 让 RegionServer 干 净 下 线 。 随 后 ， 你 需要 从 预期 运行 RegionServer 
进程 的 方 点 上 的 点 列表 里 把 该 广 操 删 控 ， 以 避免 你 的 脚本 或 者 目 动 
管理 软件 再 次 启动 这 个 进程 。 

10.3.3 i 


随 着 应 用 系统 变 得 更 加 成 功 或 者 出 现 更 多 应 用 场景 ， 很 可 能 你 需 
要 扩展 你 的 HBase 集 群 。 也 可 能 因为 某 种 原因 你 需要 替换 一 个 节点 。 这 
两 种 情况 下 往 HBase 集 群 里 增加 一 个 节点 的 过 程 是 一 样 的 。 

你 大 概 会 在 同一 台 物 理 丰 点 上 运行 HDFS DataNode， 所 以 往 HBase 
集群 里 增加 一 个 RegionServer 的 第 一 步 是 往 HDFS 里 增加 DataNode 。 
根据 你 管理 集群 的 方式 〈 是 使 用 提供 的 启动 /停止 脚本 ， 还 是 使 用 集中 
式 管理 软件 ) ， 你 需要 启动 DataNode 进程 并 且 等 待 它 加 入 HDFS 集 


群 。 在 DataNode 加 入 HDFS 集 群 后 ， 局 动 HBase RegionServer 进程 。 这 
时 你 会 在 Master 用 户 界 面 里 看 到 该 廊 点 加 入 了 市 点 列表 。 此 后 ， 如 果 
你 需要 重新 均衡 分 配 每 个 节点 所 服务 的 region 以 及 转移 某 些 负载 到 新 加 
入 的 RegionServer 上 ， 可 以 使 用 下 面 的 命令 运行 均衡 需 : 
echo "balancer" | hbase shell 

该 命令 会 从 所 有 RegionServer 上 转移 一 些 region 到 新 RegionServer 
上 ， 在 整个 集群 中 重新 均衡 负载 。 运 行 均衡 器 的 负面 影响 是 ， 你 可 能 
会 失去 被 转移 region 的 数据 本 地 性 。 但 是 在 下 一 轮 大 合并 的 时 候 会 考虑 
到 这 一 点 。 

10.3.4 滚 却 多 


在 运行 的 集群 中 对 Hadoop 和 HBase 版 本 打 补 丁 和 升级 并 不 少见 一 一 
尤其 是 如 果 你 想 使 用 最 新 、 最 好 的 特性 和 改善 性 能 的 话 。 在 生产 系统 
中 ， 升 级 可 能 很 复杂 。 集 群 升级 时 经 常 是 不 能 停机 的 。 但 是 某 些 情况 
下 ， 唯 一 的 选择 就 是 停机 。 当 你 进行 大 版 本 升级 时 ， 新 版 本 的 RPC 协 
议 不 能 匹配 老 版 本 或 者 其 他 不 能 后 疝 兼 容 的 改变 上 时， 一般 会 出 现 停机 
的 情况 。 出 现 这 种 情况 时 ， 除 了 好 好 规划 一 次 预定 停机 时 间 和 执行 升 
级 以 外 ， 没 有 别 的 选择 。 

但 并 不 是 所 有 的 升级 都 是 大 版 本 升级 ， 并 且 需 要 停机 。 当 进行 没 
有 后 向 不 兼容 的 改变 升级 时 ， 你 可 以 执行 滚动 式 升 级 (rolling 
upgrade) 。 这 意味 着 你 一 次 升级 一 个 节点 ， 不 用 信 止 整个 集群 。 这 个 
思路 是 , 干净 地 停止 一 个 节点 ， 进 行 升级 ， 然 后 重启 加 入 集群 。 这 种 
方式 不 会 影 啊 应 用 系统 的 SLA， 前 提 是 在 一 个 方 点 下 线 升 级 时 ， 你 有 
充足 的 空间 容量 可 以 服务 同样 的 流量 。 理 想 情 况 下 ，HBase 系 统 为 此 所 
供 一 些 脚 本 供 你 运行 。HBase 的 确 随机 提供 了 一 些 有 用 的 脚本 ， 但 它们 
只 是 这 个 概念 外 |] 的 简单 实现 ， 我 们 建议 你 根据 环境 的 需要 实现 定制 的 
脚本 。 为 了 在 集群 不 停机 的 情况 下 进行 升级 ， 请 执行 下 面 这 些 步 又 。 


(1) 把 HBase 新 版 本 部 署 到 集群 中 所 有 节点 上 ， 如 果 ZooKeeper 也 
需要 升级 ， 请 包含 它 的 新 版 本 。 
(2) 关闭 均衡 器 进程 。 一 个 接 一 个 地 优雅 停止 RegionServer 然 后 
再 重启 。 因 为 这 种 优雅 停止 不 是 让 节点 退役 ， 所 以 RegionServer 在 下 线 
时 服务 的 region 在 重新 上 线 时 还 会 重新 回来 。 为 了 做 到 这 一 点 ， 让 
gracefulstop.sh 脚本 带 参数 --reload 运行 。 在 所 有 RegionServer 都 重新 启 
动 后 ， 再 打开 均衡 器 。 
(3) 一 个 接 一 个 地 重启 HBase Master 。 
(4) 如 果 ZooKeeper 需 要 重启 ， 一 个 接 一 个 地 重启 quorum 里 的 所 
有 ZooKeeper 六 点 。 
(5) 升级 客户 端 。 
完成 这 些 步 又 以 后 ， 集 群 束 运行 在 升级 后 的 HBase 版 本 上 了 。 这 
些 步骤 假设 你 已 经 考虑 到 升级 底层 的 HDFS 了 。 
你 也 可 以 使 用 相同 的 步骤 为 其 他 目的 执行 滚动 式 升 级 。 


10.3.5 bin/hbase HBase Shell 


遍及 全 书 ， 你 都 会 使 用 Shell 来 访问 HBase。 第 6 章 还 研究 了 Shell 命 
令 的 脚本 编程 和 使 用 JRuby 扩 展 Shell 编 程 。 这 些 都 是 有 帮助 的 日 常 管理 
集群 的 工具 。Shell 提 供 了 一 些 命令 ， 可 以 很 方便 地 在 集群 上 执行 简单 
的 操作 或 者 检查 集群 的 键 康 状态 。 在 我 们 深入 人 研究 Shell 之 前 ， 让 我 们 
看 看 bin/hbase 脚 本 提供 的 选项 (该 脚本 也 用 来 启动 Shell) 。 基 本 上 该 
脚本 会 运行 与 你 选择 的 命令 有 关系 的 Java 类 : 


$ $HBASE HOME/bin/hbase 
Usage: hbase <command> 
where <command> an option from one of these categories: 


DBA TOOLS 
shell run the HBase shell 
hbck run 七 he hbase ‘fsck' tool 
hlog write-ahead-log analyzer 
hfile store file analyzer 
ZKel run the ZooKeeper shell 


PROCESS MANAGEMENT 


master run an HBase HMaster node 
regionserver run an HBase HRegionServer node 
zookeeper run a Zookeeper server 

rest run an HBase REST server 

tn run an HBase Thrift server 

avro run an HBase Avro server 


PACKAGE MANAGEMENT 


classpath dump hbase CLASSPATH 

version print the version 
oa 

CLASSNAME run the class named CLASSNAME 


Most commands print help when invoked w/o parameters. 

接 下 来 几 节 里 我 们 会 研究 hbbck、hlog 和 hfile 命令 。 现 在 让 我 们 启 
动 shell 命 令 。 为 了 得 到 Shell 提 供 的 命令 列表 ， 在 Shell 里 输入 help， 我 
们 会 看 到 下 面 的 内 容 : 


hbase (main) :001:0> help 
HBase Shell, version 0.92.1, 
r039a26b3c8b023cf2ele5f57ebcd0fde510d74f2, 
Thu May 31 13:15:39 PDT 2012 
Type 'help "COMMAND"', (e.g., 'help "get"' -- 
the quotes are necessary) for help on a specific command. 
Commands are grouped. Type 'help "COMMAND GROUP"', 
(e.g., 'help "general"') for help on a command group. 


COMMAND GROUPS: 
Group name: general 
Commands: status, version 


Group name: ddl 
Commands: alter, alter async, alter status, create, 
describe, disable, disable all, drop, drop all, enable, 
enable all, exists, is disabled, is enabled, list, show filters 


Group name: dml 
Commands: count, delete, deleteall, get, get. counter, 
incr, put, scan, truncate 


Group name: tools 

Commands: assign, balance switch, balancer, close region, 
compact, flush, hlog roll, major compact, move, split, 
unassign, zk dump 

Group name: replication 

Commands: add peer, disable peer, enable peer, list peers, 
remove peer, start replication, stop replication 


Group name: security 
Commands: grant, revoke, user permission 


SHELL USAGE: 
Quote all names in HBase Shell such as table and column names. 


Commas delimit 
command parameters. Type <RETURN> after entering a command to run it. 
Dictionaries of configuration used in the creation and 

alteration of tables are 
Ruby Hashes. They look like this: 


{'keyl' => 'valuel', 'key2' => 'value2', ...} 


and are opened and closed with curly-braces. 

Key/values are delimited by the '=>' character combination. 

Usually keys are predefined constants such as 

NAME, VERSIONS, COMPRESSION, etc. 

Constants do not need to be quoted. Type 

IObject .constants' to see a (messy) list of all constants in the environment. 


If you are using binary keys or values and need 
to enter them in the shell, use double-quote'd 
hexadecimal representation. For example: 


hbase> get 't1', "key\x03\x3f\xcd" 
hbase> get 't1', "key\003\023\011" 
hbase> put ‘'t1', "test\xef\xff", 'f1:', "\x01\x33\x40" 


The HBase shell is the (J)Ruby IRB with the 

above HBase-specific commands added. 

For more on the HBase Shell, see http://hbase.apache.org/docs/current/ 
book .html 


我 们 将 聚焦 于 命令 工具 组 ( 粗 体 显 示 的 部 分 ) 。 要 想得到 任何 命 


令 的 介绍 ， 你 可 以 在 Shell 里 运行 help 'command_name'， 如 下 所 示 : 
hbase (main) :003:0> help 'status' 

Show cluster status. Can be 'summary', 'simple', or 'detailed'. The 
default is 'summary'. Examples: 


hbase> status 

hbase> status 'simple' 
hbase> status 'summary' 
hbase> status 'detailed' 


1. zk_dump 
你 可 以 运行 zk_dump 命 令 来 了 解 ZooKeeper 的 当前 状态 : 


hbase (main) :030:0> > zk dump 
HBase is rooted at /hbase 
Master address: 01.mydomain.com:60000 
Region server holding ROOT: 06.mydomain.com:60020 
Region servers: 
06 .mydomain.com:60020 
04.mydomain.com:60020 
02.mydomain.com:60020 
05.mydomain.com:60020 
03.mydomain.com:60020 
Quorum Server Statistics: 
03.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 


Clients: 


02.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


01 .mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


该 命令 告诉 你 当前 运行 的 HBase Master、 构 成 集群 的 RegionServer 
列表 、-ROOT- 表 的 位 置 和 构成 ZooKeeper quorum 的 服务 器 列表 。 
ZooKeeper 是 HBase 集群 的 入 口 和 在 谈 到 集群 中 成 员 资 格 时 的 信息 源 
头 。 在 设法 对 集群 问题 进行 排 错时 ， 例 如 找 出 哪 一 人 台 是 当前 运行 的 
Master 服务 器 ， 或 者 哪个 RegionServer 托管 了 -ROOT 表 等 ， 
zk_dump 命 令 输出 的 信息 是 很 有 帮助 的 。 

2.，status 命 令 

你 可 以 使 用 status 命令 来 判断 集群 的 状态 。 该 命令 有 3 个 选项 ， 即 
simple、summary 和 detailed。 默 认 选 项 是 summary。 我 们 在 这 里 展示 了 
所 有 3 个 选项 ， 让 你 知道 每 个 选项 包含 的 信息 : 


hbase (main) :010:0> status 'summary'! 
1 servers, 0 dead, 6.0000 average load 


hbase (main) :007:0> status 'simple' 
1 live servers 
localhost:62064 1341201439634 
requestsPerSecond=0, numberOfOnlineRegions=6, 
usedHeapMB=40, maxHeapMB=987 
0 dead servers 
Aggregate load: 0, regions: 6 


hbase (main) :009:0> status 'detailed' 
version 0.92.1 
0 regionsIinTransition 
master coprocessors: [] 
1 live servers 
localhost:62064 1341201439634 
requestsPerSecond=0, numberOfOnlineRegions=6, 
usedHeapMB=40, maxHeapMB=987 
-ROOT-,,0 
numberOfStores=1, numberOfStorefiles=2, 
storefileUncompressedSizeMB=0, 
storefileSizeMB=0, memstoreSizeMB=0, 
storefileIndexSizeMB=0, readRequestsCount=48, 
writeRequestsCount=1, rootIndexSizeKB=0, 
totalSstaticIndexSizeKB=0, totalStaticBloomSizeKB=0, 
totalCompactingKVs=0, currentCompactedKVs=0, 
compactionProgressPct=NaN， coprocessors=[] 
wo 


numberOfStores=1, numberOfStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=36, writeRequestsCount=4, 
rootIindexSizeKB=0, totalStaticIindexSizeKB=0, 
totalSstaticBloomSizeKB=0, totalCompactingKVs=28, 
currentCompactedKVs=28, compactionPprogressPct=1.0, 
coprocessors=[] 
table,,1339354041685.42667e4f0O0adacec75559f28a5270a56. 
numberOfStores=1, numberOfSstorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRequestsCount=0, 
rootIndexSizeKB=0, totalStaticIndexSizeKB=0, 
totalSstaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionPprogressPct=NaN, 
coprocessors=[] 
t1,，,1339354920986 .fba20c93114a81cc72cc447707e6b9ac . 
numberOfStores=1, numberOfStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRequestsCount=0, 
rootIindexSizeKB=0, totalStaticIindexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionPprogressPpct=NaN, 
coprocessors=[] 
tablel, ,1340070923439.f1450e26b69c010ff23el1l4f83edd36b9., 
numberOfStores=1, numberOofStorefiles=1, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRequestsCount=0, 
rootIindexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionprogressPct=NaN, 
coprocessors=[] 
ycsb, ,1340070872892.2171ldad81bfe65e6ac6fe081a66c8dfqd. 
numberOfStores=1, numberOfStorefiles=0, 
storefileUncompressedSizeMB=0, storefileSizeMB=0, 
memstoreSizeMB=0, storefileIndexSizeMB=0, 
readRequestsCount=0, writeRequestsCount=0, 
rootIindexSizeKB=0, totalStaticIndexSizeKB=0, 
totalStaticBloomSizeKB=0, totalCompactingKVs=0, 
currentCompactedKVs=0, compactionPprogressPpct=NaN, 
coprocessors=[] 
0 dead servers 


如 同 你 看 到 的 ，detailed status 命令 给 出 了 一 串 RegionServer 和 它们 
服务 的 region 的 信息 。 es 今 断 问题 需要 关于 region 和 为 它们 服务 的 服 
务 絮 的 深入 信息 时 ， 这 是 很 有 帮助 的 。 

除 此 以 外 ， ee 你 活 的 服务 絮 数 量 、 死 的 服务 絮 
数量 以 及 当时 的 平均 负载 。 对 于 查看 节点 是 否 起 来 和 是 否 超载 的 健康 
检查 来 说 ， 这 多 半 是 有 帮助 的 。 

3. 合并 

从 Shel 里 触发 合并 动作 不 应 该 是 经 常 要 做 的 事情 ， 但 是 如 有 果 需 要 
这 样 做 ，Shell 的 确 提 供 了 这 种 操作 命令 。 你 可 以 分 别 使 用 compact 和 
major_compact 命 令 在 Shell 里 触发 合并 ， 包 括 小 合并 (minor 


compaction) 和 大 合并 (major compaction) : 

hbase (main) :011:0> help 'compact' 

Compact all regions in passed table or pass a region row to 
compact an individual region 


在 一 张 表 上 触发 小 合并 ， 如 下 所 示 : 
hbase (main) :014:0> compact tt 
0 row(s) in 5.1540 seconds 


在 一 个 特定 的 region 上 触发 小 合并 ， 如 下 所 示 : 
hbase (main) :015:0> compact 
't,,1339354041685.42667e4f00adacec75559f28a5270a56.'! 
0 row(s) in 0.0600 seconds 


如 果 你 关闭 了 自动 大 合并 ， 并 且 通 过 手工 处 理 合并 ， 该 命令 会 很 
oe 你 可 以 把 大 合并 写 入 脚本 ， 在 合适 的 时 间 以 计划 作业 形式 运 

了 〈 当 集群 的 负载 较 小 时 ) 。 

4. 均衡 器 

均衡 右 负 责 确 保 所 有 RegionServer 服 务 同样 数量 的 region。 现 在 的 
0 每 个 RegionServer 的 region 数 量 ， 如 采 分 布 不 均衡 ， 它 

尝试 重新 分 配 它们 。 你 可 以 通过 Shell 运 行 均衡 器 ， 如 下 所 示 : 


hbase (main) :011:0> balancer 
true 
0 row(s) in 0.0200 seconds 

在 运行 均衡 器 时 ， 其 返回 值 是 true 或 者 false， 这 和 均衡 器 是 否 运行 
有 RR 

你 可 以 使 用 balance_switch 命令 关闭 均衡 尹 。 当 你 运行 该 命令 时 ， 
返回 true 或 者 false。 返 回信 代表 该 命令 运行 前 的 均衡 右 状 态 。 为 了 让 均 
衡 右 目 动 运行 ， 把 true 作 为 参数 传递 给 balance_switch 命 令 。 为 了 关闭 均 
衡 左 ， 则 传递 false。 例 如 : 

hbase (main) :014:0> balance Switch false 

true 

0 row(s) in 0.0200 seconds 

该 命令 会 天 闭 目 动 均衡 器。 如 返回 值 所 示 ， 该 命令 运行 前 均衡 磊 
是 打开 的 。 

5. 拆 分 表 或 者 region 

Shell 提供 了 拆 分 已 有 表 的 能 力 。 理 想 情 况 下 ， 你 不 需要 手工 处 理 
这 件 事 情 。 但 是 有 些 情况 下 ， 像 region 热 点 ， 你 可 能 需要 手工 拆 分 成 为 
热点 的 region。 但 是 ， 热 点 region 通 常 指 同 男 一 个 问题 一 一 糟糕 的 行 键 
设计 导致 了 不 合适 的 负载 分 布 。 

可 以 给 split 命 令 提供 一 个 表 名 ， 该 命令 会 拆 分 那 张 表 上 的 所 有 
region; 或 者 你 可 以 指定 需要 拆 分 的 特定 region。 如 果 你 定义 了 拆 分 
键 ， 该 命令 只 围绕 那个 键 进行 拆 分 : 

hbase (main) :019:0> help 'split' 
你 可 以 拆 分 整 张 表 ， 也 可 以 传递 一 个 region 来 拆 分 单个 region。 你 


可 以 通过 第 二 个 参数 为 region 明 确 指定 拆 分 键 。 如 下 面 例子 所 示 : 

split 'tableName'! 

split 'regionName' # format: 'tableName, startKey,id' 
split 'tableName', 'splitkey'! 

split 'regionName', 'splitrKey' 


下 面 的 例子 围绕 键 G 拆 分 mytable 表 : 

hbase (main) :019:0> split 'mytable’' , 'G'! 

表 也 可 以 在 创建 的 时 候 被 预先 拆 分 。 你 也 可 以 使 用 Shell 来 这 样 处 
理 。 我 们 在 本 章 后 面 研究 预先 拆 分 。 

6. 更 改 表 模式 

使 用 Shell 可 以 更 改 已 有 表 的 属性 。 例 如 ,假设 你 想 给 一 些 列 族 增 
加 压缩 属性 ， 或 者 增加 时 间 版 本 的 数量 。 为 此 ， 你 必须 关闭 表 ， 做 出 
更 改 ， 重 新 打开 表 ， 如 下 所 示 : 


hbase (main) :019:0> disable 't' 
0 row(s) in 2.0590 seconds 


hbase (main) :020:0> alter 't', NAME => 'f', VERSIONS => 1 
Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

0 row(s) in 6.3300 seconds 


hbase (main) :021:0> enable 't' 
0 row(s) in 2.0550 seconds 

你 可 以 在 Shell 里 使 用 describe 'tablename' 命 令 检 查 被 改变 的 表 属 
性 。 

7. 截断 表 

截断 (truncate) 表意 味 着 删除 所 有 数据 但 保留 表 结构 。 这 张 表 仍 
然 存 在 于 系统 里 ， 但 在 运行 truncate 命 令 后 该 表 是 空 的 。 在 HBase 中 截 
呆 一 张 表 涉 及 关闭 表 、 删 除 表 和 重新 创建 表 等 动作 。truncate 命 令 为 你 
执行 所 有 这 些 动 作 。 对 于 一 张 巨大 的 表 ， 截 断 可 能 很 费时 间 ， 因 为 在 
删除 region 之 前 所 有 的 region 必 须 下 线 和 关闭 。 


hbase (main) :023:0> truncate 't' 

Truncating 't' table (it may take a while): 
- Disabling table... 
- Dropping table... 
- Creating table... 

0 row(s) in 14.3190 seconds 


10.3.6 一 拟 性 一 一 hbck 


文件 系统 会 提供 文件 系统 检查 工具 ， 允 像 fsck 一 样 检查 文件 系统 的 
一 致 性 。 这 些 工 具 通 常会 周期 性 地 运行 来 了 解 文件 系统 的 状态 ， 或 者 
在 系统 表现 不 正常 时 专门 检查 完整 性 。HBase 提 供 了 一 个 类 似 的 叫做 
hbck (或 者 HBaseFsck) 的 工具 ， 用 来 检查 HBase 集 群 的 一 致 性 和 完整 
性 。hbck 最 近 经 历 了 一 次 彻 的 修改 ， 这 个 作为 修改 结果 的 工具 得 到 了 
一 个 绰号 uberhbck。 这 个 hbck 的 uber 版 本 在 版 本 0.90.7+、0.92.2+ 和 
0.94.0+ 里 可 以 得 到 。 我 们 会 介绍 该 工具 提供 的 功能 以 及 在 什么 地 方 用 
得 上 它 bs o 

阅读 手册 ! 

根据 你 使 用 的 HBase 版 本 ，hbck 提 供 的 功能 可 能 有 些 区 别 。 我 们 建 
议 你 阅读 你 使 用 版 本 的 手册 ， 来 了 解 这 个 工具 在 你 的 环境 里 提供 了 什 
么 功能 。 如 采 你 是 个 懂行 的 用 户 ， 并 且 想 得 到 你 用 的 版 本 不 提供 而 后 
续 版 本 提供 的 更 多 功能 ， 你 可 以 同 后 移植 JIRA |! 

hbck 是 一 个 帮助 你 检查 HBase 集群 中 的 不 一 致 的 工具 。 这 种 不 一 
致 可 能 在 两 个 层面 发 生 。 

加 region 不 一 致 一 一 每 个 region 被 分 配 和 部 署 到 一 个 且 只 有 一 个 
RegionServer， 并 且 天 于 region 状 态 的 所 有 信息 正确 反映 这 一 点 。 基 于 
上 述 事实 ， 我 们 定义 了 HBase 中 的 region 一 致 性 。 如 果 违 反 这 个 特性 ， 
瓯 认为 集群 处 于 不 一 致 的 状态 。 


加 表 不 一 致 一 一 每 个 可 能 的 行 键 只 能 属于 一 个 且 只 有 一 个 表 的 
region。 基 于 上 述 事实 ， 我 们 定义 了 HBase 中 表 的 完整 性 。 如 果 违 反 这 
个 特性 ， 说 明 HBase 集 群 处 于 不 一 致 的 状态 。 

hbck 执 行 两 个 主要 功能 : 检测 不 一 致 性 和 修复 不 一 致 性 。 

1.， 检测 不 一 致 

你 可 以 使 用 hbck 主动 检测 集群 的 不 一 致 。 你 也 可 以 等 待 应 用 系统 
抛 出 异常 ， 比 如 找 不 到 region 或 者 不 知道 把 某 个 行 键 写 入 哪个 region 
等 ， 但 是 你 可 以 在 这 些 问 题 影 响 到 应 用 系统 之 前 把 它们 检查 出 来 ， 两 
者 相 比 ， 被 动 等 每 的 做 法 代价 要 大 得 多 。 

你 可 以 运行 hbck 工 具 来 检测 不 一 致 ， 如 下 所 示 : 

$s SHBASE HOME/bin/hbase hbck 

运行 该 命令 时 ， 它 提供 给 你 所 发 现 的 不 一 致 情况 列表 。 如 果 一 切 
正常 ， 它 输出 OK 。 运 行 hnbck 时 ， 它 偶尔 会 抓 到 临时 的 不 一 致 。 例 如 ， 
在 region 拆 分 期 间 ， 看 起 来 好 像 有 不 只 一 个 region 在 服务 同一 个 行 键 苍 
围 ， 这 被 hbck 检 测 为 不 一 致 。 但 是 RegionServer 知 道子 region 会 接收 所 
有 服务 请 求 而 父 region 马 上 丈 要 退出 ， 所 以 这 并 不 是 真 电 不 一 致 。 在 数 
分 钟 里 多 运行 几 次 hbck， 看 看 不 一 致 的 地 方 是 否 一 直 存 在 ， 是 否 只 是 
在 系统 过 小 期 间 捕 获 的 表面 上 的 不 一 致 。 为 了 了 解 更 多 输出 的 不 一 至 
的 细节 ， 你 可 以 带 着 -details 标 志 运 行 hbbck， 如 下 所 示 : 

$s SHBASE HOME/bin/hbase hbck -details 

你 还 可 以 采用 自动 化 方式 周期 性 地 运行 hbck 来 监控 集群 随时 间 变 
化 的 健康 情况 ， 如 果 hbck 连续 报告 不 一 致 则 给 你 发 出 警告 。 除 非 你 的 
集群 上 有 很 多 负载 (可 能 导致 过 度 的 拆 分 、 合 并 和 region 转 移 等 ) ， 
10~15 分 钟 运行 一 次 hbck 应 该 足够 了 。 对 于 本 例 ， 可 以 考虑 更 高 频 度 
地 运行 hbck 。 

2. 修复 不 一 臻 


如 有 条 你 发 现 了 HBase 集群 中 的 不 一 致 ， 要 尽 可 能 修复 它们 以 避 钢 
遭遇 进一步 的 问题 和 无 法 预期 的 表现 。 直 到 最 近 ， 在 这 方面 还 没有 自 
动 化 工具 可 以 帮 上 忙 。 这 在 较 高 的 hbck 版 本 里 有 所 变化 ，hbck 现 在 可 
以 修复 集群 的 不 一 致 。 


信人- 
和 警 吾 


四 有 些 不 一 致 〈 如 在 .META. 表 里 的 错误 分 配 ， 或 者 region 被 分 配 

给 多 个 RegionServer) 可 以 在 HBase 在 线 时 进行 修复 。 其 他 的 不 一 臻 
(例如 region 的 键 范围 重合 ) 处 理 起 来 要 复杂 一 些 ， 我 们 建议 在 修复 这 
些 不 一 致 时 不 要 在 HBase 上 运行 任何 工作 负载 。 

上 晶 修复 HBase 表 的 不 一 致 束 像 是 做 外 科 手 术 一 一 经 常 还 是 高 级 外 科 
手术 。 除 非 你 知道 自己 在 做 什么 并 且 觉 得 有 把 握 ， 否 则 不 要 执行 修复 
处 理 。 在 一 个 生产 集群 上 开始 处 理 之 前 ， 请 先 在 开发 /实验 环境 测试 这 
个 工具 并 对 测试 情况 心理 有 数 ， 了 解 其 内 部 工作 机 制 和 它 所 做 的 事 
情 ， 请 教 邮件 列表 里 的 开发 人 员 并 听取 他 们 的 意见 。 你 不 得 不 修复 不 
一 致 的 事实 本 身 说 明 ， 要 么 在 HBase 里 存在 潜在 的 错误 ， 要 么 可 能 是 医 
为 不 合适 的 应 用 设计 以 HBase 不 擅长 的 方式 把 HBase 推 问 了 极限 。 请 当 
心 ! 

接 下 来 ， 我 们 将 介绍 各 种 不 一 致 的 类 型 以 及 如 何 使 用 hbck 来 修复 
它们 。 

日 不 正确 的 分 配 一 一 这 是 由 于 .META. 表 保存 了 region 的 错误 信息 。 
这 种 情况 有 3 种 可 能 : region 被 分 配给 了 多 个 RegionServer，region 被 错 
误 地 分 配给 了 一 个 RegionServer 但 却 由 男 一 个 RegionServer 提 供 服 务 ， 
region 存 在 于 .META. 表 里 但 是 没有 被 分 配给 任何 RegionServer。 这 些 不 
一 致 情况 可 以 通过 带 -fixAssignments 标 志 运 行 hbbck 来 修复 。 在 hbck 的 早 
期 版 本 里 ， 使 用 -fix 标 志 完 成 这 个 工作 。 

卓 失 踩 的 或 者 多 余 的 region 一 一 如 果 HDFS 保存 了 在 .META. 表 里 
没有 记录 的 region， 或 者 .META. 表 保存 了 在 HDFS 里 不 存在 的 region 的 


多 余 记 录 ， 这 被 认为 是 不 一 致 。 这 些 情 况 可 以 通过 市 -fixMeta 标 志 运 行 
hbck 来 修复 。 如 果 HDFS 没有 保存 .META. 表 认为 应 该 存在 的 region， 在 
HDFS 里 会 创建 一 个 和 .META. 表 里 的 记录 对 应 的 空 region。 你 可 以 使 
用 -fixHdfsHoles 标 志 完 成 这 项 工作 。 

前 面 提 到 的 修复 处 理 都 是 低 风 险 的， 通常 打包 在 一 起 运行 。 为 了 
打包 在 一 起 执行 ， 融 -repairHoles 标 志 运 行 hbbck 即 可 。 这 会 执行 所 有 3 种 
修复 处 理 。 

$ $HBASE HOME/bin/hbase hbck -repairHoles 

不 一 致 的 情况 可 能 比 我 们 已 经 讨论 过 的 这 些 情况 更 为 复杂 ， 可 能 
需要 小 心地 修复 处 理 。@ 在 HDFS 上 失踪 的 region 元 数据 一 一 每 个 
region 在 HDFS 里 保存 有 一 个 .regioninfo 文件 ， 它 保存 该 region 的 元 数 
据 。 如 果 该 文件 丢失 并 有 旦 .META. 表 也 没有 保存 该 region 的 记录 ，- 
fixAssignments 标志 也 不 会 爱 效 。 可 以 融 -fixHdfsOrphans 标 志 运 行 hbck 
来 收集 一 个 丢失 了 .regioninfo 文 件 的 region。 

四 重 登 的 region 一 一 这 是 到 目前 为 止 需要 修复 的 最 复杂 的 不 一 致 情 
况 。 有 时 候 region 可 能 有 重合 的 键 范 围 。 例 如 ， 假 设 Region 1 为 键 范围 
A~I 提 供 服务 ， 而 Region 2 为 键 范 围 F~N 提 供 服 务 。 在 这 两 个 region 里 
键 范围 F~I 是 重合 的 (参见 图 10-9) 。 你 可 以 通过 带 -fixHdfsOverlaps 参 
数 运 行 hbck 来 修复 这 种 情况 。hbck 合 并 这 两 个 region 来 修复 这 种 不 一 
致 。 如 条 重 三 的 region 的 数量 巨大 并 且 合 并 会 导致 生成 一 个 大 region ， 
那么 这 种 修复 处 理 可 能 会 导致 密集 的 合并 和 拆 分 。 为 了 避免 密集 的 合 
并 和 拆 分 ， 这 种 情况 下 的 底层 HFile 可 能 会 被 稼 路 到 一 个 单独 的 目录 
里 ， 过 后 再 批量 导入 到 HBase 表 里 。 为 了 限制 合并 的 数量 ， 可 以 使 用 - 
maxMerge <n> 标 志 。 如果 参加 合并 的 region 的 数量 大 于 n， 它 们 会 被 
蔻 路 处 理 而 不 是 被 合并 。 如 果 达 到 最 大 合并 大 小 ， 可 以 使 用 - 
sidelineBigOverlaps 标志 来 打开 region 的 旁 路 处 理 。 你 可 以 使 用 - 


maxOverlapsToSideline <m> 标 志 来 限定 一 次 劳 路 处 理 的 region 的 最 大 数 


en Cee I Ce 


region 1 | region 2 


图 10-9 键 范 围 F~I 由 两 个 region 提 供 服 务 。 这 两 个 region 负 责 的 键 
范围 有 重奏。 你 可 以 用 hbck 修 复 这 种 不 一 致 

如 果 你 打算 执行 所 有 这 些 修复 处 理 ， 经 常会 使 用 -repair 标志 而 不 
是 逮 个 使 用 前 面 的 每 个 标志 。 你 还 可 以 把 表 名 字 传 递 给 修复 标志 来 限 
定 修复 特定 的 表 (-repair MyTable) 

警告 修复 HBase 表 的 不 一 致 是 一 种 高 级 运 维 任 务 。 我 们 鼓励 你 阅 
读 在 线 手 册 ， 并 且 在 生产 集群 上 运行 之 前 尽量 移 在 开发 环境 里 运行 
hbck。 还 有 ， 阅 读 该 脚本 的 源 代 码 永远 没有 害处 。 

10.3.7 HFiletH HLog 


HBase 提供 了 实用 工具 来 检查 在 写 的 时 候 创 建 的 HFile 和 HLog 
(WAL) 。HLog 位 于 文件 系统 上 HBase 根 目录 下 的 .logs 目录 里 。 你 
可 以 使 用 bin/hbase 脚本 的 hlog 命令 来 检查 它们 ， 如 下 所 示 : 


$ bin/hbase hlog /hbase/.logs/regionserverhostname,60020,1340983114841/ 
regionserverhostname%2C60020%2C1340983114841.1340996727020 


12/07/03 15:31:59 WARN conf .Configuration: fs.default .name 
is deprecated. Instead, use fs.dqefaultFS 
12/07/03 15:32:00 INFO util.NativeCodeLoader: Loaded the 
native-hadoop librarySequence 650517 from region 
a89b462b3b0943daa3017866315b729e in table users 
Action: 
row: USeLr8257982797137456856 
column: s:field0 
at time: Fri Jun 29 12:05:27 PDT 2012 
Action: 
row: USer8258088969826208944 
column: s:field0 
at time: Fri Jun 29 12:05:27 PDT 2012 
Action: 
row: USer8258268146936739228 
column: s:fieldo0 
at time: Fri Jun 29 12:05:27 PDT 2012 
Action: 
row: USeLr825878197280400817 
column: s:field0 
dt times RU 29 120527 PDT 2012 


其 输出 是 在 那个 特定 HLog 文 件 里 记录 的 edits 列 表 。 

该 脚本 有 一 个 类 似 的 工具 用 于 检查 HFile。 要 输出 该 命令 的 帮助 信 
息 ， 不 带 任何 参数 运行 该 命令 即 可 : 
$ bin/hbase hfile 


usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-s] [-vVv] 
-a,--checkfamily Enable family check 


-b,--printblocks Print block index meta data 

-e,--printkey Print keys 

-f,--file <arg> File to scan. Pass full-path; e.g., 
hdfs://a:9000/hbase/ .META./12/34 

-k,--checkrow Enable row order check; looks for out-of-order keys 

-m,--printmeta Print meta data of file 

-p,--printkv Print key/value pairs 

-r,--region <arg> Region to scan. Pass region name; e.g., '.META.,,1' 

-Ss,--stats Print statistics 

-V,--Vverbose Verbose output; emits file and meta data delimiters 


检查 一 个 特定 HFile 的 统计 信息 的 例子 如 下 : 


$ bin/hbase hfile -8 -f /hbase/users/0a2485f4febcf7al3913b8b040bcacc7/s/ 
633132126d7e40b68aelcl2dead82898 


Stats: 
Key length: count: 1504206 min: 35 max: 42 mean: 41.88885963757624 
Val length: count: 1504206 min: 90 max: 90 mean: 90.0 


Row size (bytes): count: 1312480 min: 133 
max: 280 mean: 160.32370931366574 

Row size (columns): count: 1312480 min: 1 
max: 2 mean: 1.1460791783493844 

Key of biggest row: user8257556289221384421 


你 可 以 看 到 很 多 关于 该 HFile 的 信息 。 你 可 以 使 用 其 他 参数 来 获得 
不 同 的 信息 。 如 果 你 在 遇 到 问题 时 打算 了 解 系统 的 运转 状态 ， 查 看 
HLog 和 HFile 的 功能 是 很 有 帮助 的 。 


10.3.8 


在 密集 的 写 负 载 期 间 ， 拆 分 表 的 动作 可 能 会 导致 延迟 变 长 。 拆 分 
动作 之 后 通常 会 紧 跟着 region 转 移动 作 来 重新 均衡 集群 ， 这 会 增加 压 
力 。 另 外 ， 把 表 进 行 预 拆 分 对 于 批量 加 载 任务 也 是 值得 期 待 的 ， 这 一 
点 本 章 后 面 研 究 。 如 有 果 键 的 分 布 情况 是 已 知 的 ， 你 可 以 在 创建 表 的 时 
候 把 表 拆 分 成 期 望 的 region 数 量 。 

每 个 RegionServer 先 从 几 个 region 开 始 提 供 服 务 是 明智 的 做 法 。 一 
个 好 的 起 点 是 每 个 RegionServer 在 开始 时 候 为 不 超过 10 个 region 提供 
服务 。 这 暗示 了 region 的 大 小 (region 越 少 ， 则 应 该 越 大 ) ， 你 可 以 使 
用 hbase.hregion.max.filesize 配 置 属性 在 系统 层面 进行 设置 。 如 有 果 你 把 该 
数字 设置 为 期 望 的 region 大 小 ， 在 region 达 到 这 个 大 小 后 HBase 会 目 动 拆 
分 它们 。 但 是 把 该 数字 设置 为 远 高 于 期 望 的 region 大 小 ， 则 会 让 你 能 够 
在 HBase 拆 分 之 前 手工 管理 region 的 大 小 。 对 于 系统 管理 员 来 说 ， 这 意 
味 着 更 多 的 工作 ， 但 是 可 以 更 精细 地 控制 region 的 大 小 。 手 工 管理 表 的 
拆 分 是 一 种 高 级 运 维 做 法 ， 只 有 当 你 在 开发 环境 里 测试 过 并 且 对 结 
满意 的 情况 下 才 可 以 这 样 做 。 如 果 拆 分 过 度 ， 最 终 你 会 得 到 许多 小 
region。 如果 不能 及 时 拆 分 ， 在 你 的 region 达到 配置 的 region 大 小 时 


HBase 会 跳 进来 进行 目 动 拆 分 ， 因 为 此 时 region 可 能 已 经 很 大 ， 这 会 导 

致 占用 更 长 时 间 的 大 合并 。 
可 以 在 创建 表 的 时 候 使 用 HBase Shell 预先 拆 分 region。 这 种 处 理 方 

法 需要 有 一 个 保存 了 拆 分 键 列 表 的 文件 ， 在 这 个 文件 里 每 行列 出 一 个 


键 。 例 了 于 如 下 所 不: 


S$ 
A 
B 
a 


D 


cat ~/splitkeylist 


使 用 列 出 的 链 作 为 拆 分 分 界线 ， 为 了 创建 这 样 的 表 在 Shell 里 运行 


hbase (main) :019:0> create 'mytable' 

{SPLITS FILE => '~/splitkeylist'} 
该 命令 创建 了 一 张 有 预 拆 分 region 的 表 。 你 可 以 透 过 Master Web 

用 户 界面 来 确认 这 一 点 (参见 图 10-10) 。 


Table: mytable 


'family', 


Table Attributes 


Nb Name] Deaipim | 
navied |e he ole enabied 


Table Regions 


图 10-10 HBase Master 用 户 界面 显示 了 在 创建 时 通过 提供 拆 分 键 创 
建 的 预 拆 分 表 。 注 意 region 的 起 始 键 和 结束 键 
创建 一 张 有 预 拆 分 region 的 表 的 另 一 种 方法 是 使 用 


HBaseAdmin.createTable (...)API， 如 下 所 示 : 
string tableName = "mytable",; 
String startKey = "A'",; 

String endKey = "D",; 

int numOfSplits = 5; 


HBaseAdmin admin = new HBaseAdmin (conf).,; 
HTableDescriptor desc new HTableDescriptor (tableName), 
HColumnDescriptor col new HColumnDescriptor ("family"),; 
desc.addFamily (col),; 

admin.createTable(desc, startKey, endKey, numOfSplits),; 


我 们 在 utils 包 下 提供 的 代码 里 为 你 准备 了 一 个 实现 ， 其 名 字 是 
TablePre Splitter ° 

另 一 个 创建 预 拆 分 表 和 此 后 均衡 拆 分 它们 的 实现 打包 在 HBase 的 
org.apache. hadoop.hbase.util.RegionSplitter 类 里 。 

本 市 我 们 研究 了 许多 运 维和 管理 任务 ， 给 你 提供 了 足够 多 的 运行 
HBase 集群 的 知识 。 成 功 运 维 一 个 系统 还 包括 处 理 各 种 故障 情况 的 能 
力 ， 以 及 在 灾难 发 生 时 保持 运行 和 性 能 损失 最 小 的 能 力 。 下 一 节 将 探 
索 在 HBase 环 境 里 备份 的 概念 及 其 重要 所 在 。 


10.4 备份 和 复制 


备份 越 来 越 成 为 系统 管理 员 和 负责 系统 运 维 鸭 人 员 的 主要 话题 之 
一 。 在 Hadoop 和 HBase 的 世界 里 ， 谈 论 的 话题 略 有 改变 。 在 传统 系统 
里 ， 执 行 备份 实现 见 余 是 为 了 抵御 系统 故障 (硬件 和 /或 软件  。 故 障 
被 认为 是 系统 之 外 的 东西 ， 但 是 影响 到 系统 的 正常 运转 。 例 如 ， 如 果 
一 个 天 系 型 数据 库 因为 主机 的 内 存 故 障 而 下 线 ， 这 个 系统 直到 替换 了 


内 存 才 可 以 使 用 。 如 有 果 硬 盘山 溃 了， 你 很 可 能 会 丢失 部 分 数据 (取决 
于 硬盘 如 何 设置 和 使 用 了 多 少 块 硬盘 ) 。 

Hadoop 和 HBase 建 立 在 把 硬件 故障 作为 第 一 优先 级 考虑 因素 的 基础 
上 ， 它 们 的 设计 初衷 就 是 可 以 不 受 单个 节点 故障 的 影响 。 如 果 一 个 
DataNode 或 者 RegionServer 主 机 脱离 集群 ， 集 群 是 不 受 影响 的 。 其 他 主 
机 会 接管 工作 负载 (存储 的 数据 或 者 服务 的 region) ， 然 后 系统 会 继续 
正常 工作 。 今 天 的 整个 Hadoop 体 系 具 有 高 可 用 性 ， 这 意味 着 系统 内 没 
有 让 系统 宕 机 或 者 不 可 用 的 单 点 故障 。 单 个 节点 故障 是 没有 关系 的 ， 
但 是 托管 集群 的 整个 数据 中 心 停 用 会 导致 系统 信用 ， 因 为 直到 今天 
Hadoop 和 HBase 还 不 能 跨 多 个 数据 中 心 sl。 但 是 ， 如 果 你 的 要 求 是 抵 
御 这 种 故障 ， 你 多 少 需 要 准备 一 种 备份 策略 。 

傈 持 一 份 独立 数据 副本 可 用 的 另 一 个 原因 是 执行 离线 处 理 任务 。 
如 同 我 们 在 第 9 章 建议 的 ， 在 同一 个 HBase 集 群 上 并 行 配置 实时 和 批 处 
理工 作 人 负载 会 影响 到 服务 这 两 种 访问 模式 场景 的 延迟 和 性 能 (和 分 别 
独立 运行 它们 相 比 ) 。 通 过 在 男 一 个 集群 上 保留 第 二 份 数据 副本 ， 可 
以 把 在 线 访问 模式 和 批 处 理 访问 模式 分 开 ， 从 而 让 两 者 以 最 优化 方式 
运行 。 

有 多 种 方法 可 以 实现 备份 或 者 数据 的 第 二 份 副 本 ， 每 一 种 都 有 不 
同 的 特点 。 


10.4.1 集群 间 复 制 
复制 作为 一 个 特性 直到 最 近 还 一 直 处 于 试验 状态 ， 只 有 内 行 的 用 
户 在 生产 环境 里 使 用 了 这 个 特性 。 活 跃 的 开发 和 越 来 越 多 的 用 户 需求 
正在 把 这 个 特性 推 到 一 个 更 稳定 的 状态 。 你 不 一 定 必须 了 解 复制 工作 
原理 的 细节 ， 但 是 如 果 你 计划 在 生产 环境 里 使 用 它 ， 我 们 建议 你 认真 
掌握 它 。 


把 数据 从 一 个 集群 复制 到 另 一 个 集群 的 一 种 方法 是 在 往 第 一 个 集 
群 写 入 数据 时 复制 写 操 作 。 这 是 关系 型 数据 库 里 常见 的 操作 机 制 。 
HBase 中 的 集群 间 复 制 可 以 通过 发 送 日 志 记 录 来 实现 ， 可 以 异步 执行 。 
这 意味 着 把 写 入 HLog 的 edits (Put 和 Delete) 记录 发 送 给 并 写 入 作为 复 
制 目标 的 第 二 个 集群 ， 从 而 完成 复制 。 第 一 个 集群 的 写 操 作 不 会 阻塞 
在 被 复制 的 edits 上 。 因 为 复制 工作 不 会 影响 写 操作 发 生 时 的 延迟 ， 它 
在 完成 写 操 作 后 异步 发 生 ， 所 以 可 以 跨 数据 中 心 实 现 。 

现在 的 情况 

本 节 里 复制 任务 的 用 法 说 明和 介绍 内 容 对 于 Apache HBase 0.92.1 或 
者 CDH4u0 版 本 来 说 是 正确 的 。 考 虚 到 这 是 一 个 相当 新 的 特性 ， 到 现在 
为 止 还 没有 看 到 在 很 多 生产 环境 里 使 用 它 ， 在 短期 内 仍然 会 有 活跃 的 
研发 和 新 特性 的 增加 。 我 们 鼓励 你 查看 所 使 用 版 本 的 发 行 说 明 ， 不 要 
一 成 不 变 地 看 待 我 们 的 介绍 。 

你 可 以 在 创建 表 或 者 更 改 表 时 把 复制 范围 设置 为 1 在 列 族 层次 来 配 
置 复制 特性 : 


hbase (main) :002:0> create 'mytable', {NAME => 'colfaml', 
REPLICATION SCOPE => '1'} 


该 命令 设置 colfam1 列 族 在 数据 写 入 时 复制 到 第 二 个 集群 。 在 第 二 
个 集群 上 必须 有 相同 的 表 名 和 和 列 族 名 。 如 末 它 们 不 存在 ，HBase 不 会 创 
建 它 们 ， 复 制 会 失败 。 

集群 则 复制 有 以 下 3 种 类 型 。 

加 证 从 (master-slave) 在 这 种 复制 方式 里 ， 所 有 的 写 入 只 写 
到 主 集群 ， 然 后 被 复制 到 从 集群 ， 如 图 10-11 所 示 。 没 有 东西 会 直接 写 
到 第 二 个 集群 的 被 复制 列 族 。HBase 不 强制 要 求 直 接 写 到 被 复制 的 从 
集群 ， 你 需要 在 应 用 层面 保证 这 一 点 。 如 果 你 错误 地 写 到 了 从 集群 ， 
数据 不 会 被 复制 回 主 集群 。 从 集群 可 以 拥有 不 是 从 主 集群 复制 来 的 其 
他 表 和 列 族 。 


图 10-11 主 从 复制 配置 设计 ， 这 里 复制 只 会 单 回 进 行 

加 主 主 (master-master) 在 主 主 复制 方式 里 ， 任 何 一 个 集群 收 
到 的 写 入 都 会 被 复制 到 另 一 个 集群 ， 如 图 10-12 所 示 。 

环 形 (cyclic) 在 环形 复制 方式 里 ， 你 可 以 设置 多 于 两 个 的 
集群 来 互相 复制 (参见 图 10-13) 。 任 何 两 个 集群 之 间 的 复制 方式 可 以 
是 主 主 模式 或 者 主 从 模式 。 主 主 复制 方式 可 以 被 看 做 是 只 涉及 两 个 集 
群 的 环形 复制 。 


Se Se He Se 


图 10-12 主 主 复制 配置 设计 ， 这 里 复制 双 辣 进行 。 任 一 个 集群 上 的 
写 入 会 被 复制 到 另 一 个 集群 上 


图 10-13 环形 复制 设计 ， 这 里 参与 复制 过 程 的 集群 超过 两 个 ， 其 中 
任何 两 个 集群 之 间 的 天 系 可 以 是 没有 复制 、 主 从 复制 或 者 主 主 复制 
你 可 以 根据 目 己 的 应 用 系统 ， 选 择 效果 最 好 的 那 一 种 复制 模型 。 
如 果 只 是 为 备份 的 目的 或 者 为 了 得 到 第 二 份 副 本 来 执行 批 处 理 ， 主 从 
模型 效果 很 好 。 在 一 些 特殊 场景 里 ， 比 如 你 要 么 想得到 拥有 相同 数据 
的 第 三 个 集群 ， 要 么 想 把 来 目 不 同 源 的 数据 保存 到 不 同 的 表 里 ， 可 以 
使 用 主 主 复制 和 环形 复制 方式 ， 其 最 终 目 的 是 在 所 有 和 集群 上 保持 完全 
相同 的 状态 。 
1. 配置 集群 则 复制 
为 了 配置 集群 间 复 制 ， 采 用 下 面 的 步骤 。 
(1) 把 下 面 的 配置 参数 放 进 两 个 集群 的 hbase-site.xml 文 件 里 ( 主 
集群 和 第 二 集群 ) 


Dropertys 
<name>hbase.replication</name> 
<value>true</value> 

</property> 

把 这 个 配置 信息 放 进 两 个 集群 的 所 有 市 点 上 以 后 ， 需 要 重启 
HBase 守护 进程 (RegionServer 和 Master) 。 请 注意 ， 为 了 让 这 个 配置 
信息 生效 ，ZooKeeper 必须 是 自我 管理 的 。 在 HBase 0.92.1 或 者 
CDH4u0 版 本 里 ，HBase 管理 的 ZooKeeper 还 没有 在 复制 体系 里 被 测试 
过 o 

该 设置 使 集群 能 够 参与 复制 体系 。 

(2) 把 第 二 个 集群 添加 到 集群 列表 里 ， 日 志 记 录 会 从 主 集群 发 送 
到 那里 。 你 可 以 在 HBase Shell 里 使 用 add_peer 命令 来 实现 这 一 步 。 句 
法 如 下 : 


add peer '<n>', 
"slave.zZookeeper .quorum:zookeeper.clientport :zookeeper.znode.parent" 


例如 : 


hbase (main) :002:0> add peer '1', 
"secondary cluster zookeeper quorum:2181:/hbase" 


该 命令 把 第 二 个 集群 登记 为 为 了 复制 的 目的 需要 把 edits 发 送 到 的 
目标 地 址 。 

(3) 为 复制 任务 创建 表 。 如 同 前 面 解释 过 的 ， 你 需要 在 列 族 层 面 
这 样 做 。 为 了 在 已 有 表 上 打开 复制 配置 ， 需 要 先 关 闭 表 ， 修 改 列 族 的 
属性 ， 再 重新 打开 表 。 复 制 操 作 会 马上 开始 进行 。 

确保 在 两 个 集群 里 存在 同样 的 表 和 列 族 ( 主 集群 和 目标 从 集 
群 ) 。 不 过 ， 复 制 范围 只 在 主 集群 上 被 设置 为 1。 两 个 集群 上 可 以 拥有 
不 被 复制 的 其 他 表 和 列 族 。 

在 建立 复制 以 后 ， 你 应 该 在 集群 上 运行 任何 负载 之 前 ， 验 证 复制 
征 否 按照 预期 工作 。 

2. 测试 复制 体系 


测试 复制 是 否 工作 的 最 简单 的 方法 是 在 主 集 群 上 的 表 里 存 入 一 些 
行 ， 然 后 检查 它们 是 否 在 从 集群 上 出 现 。 如 采 数 据 集 特别 大 ， 这 方法 
可 能 是 不 可 行 的 ， 如 果 你 在 生产 集群 上 打开 复制 配置 ， 可 能 就 会 出 现 
这 种 情况 。HBase 随机 提供 了 一 个 叫做 VerifyReplication 的 MapReduce 作 
业 ， 你 可 以 运行 该 作业 来 比较 两 张 表 的 内 容 : 


$ $HBASE HOME/bin/hbase 

org.apache.hadoop.hbase.mapreduce.replication.VerifyReplication 
Usage: verifyrep [--starttime=X] [--stoptime=Y] [--families=A] 
<peerid> <tablename> 


Options: 

starttime beginning of the time range 

without endtime means from starttime to forever 

stoptime end of the time range 

families comma-separated list of families to copy 
Args: 

peerid Id of the peer used for verification, 

must match the one given for replication 

tablename Name of the table to verify 
Examples: 


To verify the data replicated from TestTable for a 1 hour window 
with peer #5 
$ bin/hbase org.apache.hadoop.hbase.mapreduce.replication.VerifyReplication 


starttime=1265875194289 --stoptime=1265878794289 5 TestTable 

但 是 如 果 你 没有 运行 MapReduce 框架 ， 这 个 方法 就 没 法 使 用 。 你 
需要 在 两 个 集群 上 手工 执行 两 张 表 的 扫描 来 确保 一 切 工作 正常 。 

3， 管理 复制 

复制 配置 在 集群 上 打开 以 后 ， 你 不 需要 做 什么 来 管理 复制 。 为 了 
在 一 个 运行 的 集群 上 停止 复制 ， 你 可 以 在 HBase Shell 里 运行 
stop_replication 命令 。 要 重新 启动 它 ， 可 以 运行 start_replication 命 令 。 

当前 实现 里 的 一 些 特 色 让 一 些 管理 任务 变 得 有 点 儿 复 杂 。 复 制 是 
在 列 族 层面 处 理 的 ， 在 激活 的 HLog 文件 里 设置 的 。 因 此 如 果 你 停止 复 
制 然后 重新 启动 它 ， 并 且 HLog 还 没有 滚动 ， 在 你 集 止 和 重新 启动 复制 
之 间 写 入 的 任何 东西 也 会 被 复制 。 这 是 当前 复制 实现 的 一 个 功能 ， 它 
可 能 会 在 将 来 的 版 本 里 发 生变 化 。 


要 删除 一 个 集群 成 员 ， 可 以 使 用 remove_peer 命 令 ， 后面 带 上 成 员 

ID: 
hbase> remove peer '1' 
要 得 看 当前 配置 的 成 员 列 表 ， 可 以 使 用 list_peers 命 令 : 
hbase> list peers 

集群 间 复 制 是 一 个 高 级 特性 ， 可 以 轻松 保存 数据 的 多 个 副本 。 维 
护 两 份 数据 的 热 副 本 是 很 棒 的 功能 : 你 的 应 用 系统 在 主 集群 出 问题 的 
时 候 可 以 切换 到 第 二 集群 。 热 故障 切换 机 制 则 需要 内 置 到 应 用 系统 
里 。 这 可 以 纯粹 在 应 用 逻辑 里 建立 ， 或 者 在 主 集群 停 用 时 修改 DNS 让 
应 用 系统 访问 第 二 个 集群 。 当 主 集群 恢复 和 重新 运行 起 来 了 ， 你 可 以 
同样 修改 DNS， 跳 回 到 主 集群 。 

天 于 时 间 同 步 的 提示 

为 了 让 复制 正常 工作 ， 主 集群 和 第 二 集群 的 时 间 必 须 是 同步 的 。 
如 同 我 们 前 面 介绍 的 ， 这 可 以 使 用 NTP 来 实现 。 在 运行 HBase 的 所 有 广 
点 上 保持 时 间 同 步 对 于 确保 系统 可 徘 运转 是 至 天 重要 的 。 

现在 的 问题 是 把 第 二 集群 新 写 入 的 数据 送 回 主 集 群 。 这 可 以 使 用 
CopyTable 或 者 Export/Import 作 业 来 实现 ， 这 就 是 接 下 来 我 们 要 讨论 的 
内 容 。 


10.4.2 使 用 MapReduce 作 业 进 行 备份 


如 同 我 们 在 第 3 章 讨 论 过 的 ， 可 以 设置 MapReduce 作 业 把 HBase 表 
用 做 数据 源 和 输出 目标 。 可 以 通过 扫 摘 HBase 表 并 把 数据 输出 到 平面 
文件 或 其 他 表 的 方式 来 执行 某 个 时 间 点 的 备份 ， 这 个 功能 是 很 有 用 
的 。 

这 和 上 一 方 介绍 的 集群 间 复 制 是 不 同 的 。 集 群 间 复制 是 一 种 推 
(push) 机 制 : 当 新 的 edits 进 来 时 ， 它 们 被 推 到 复制 的 集群 上 ， 尽 管 是 
异步 地 。 在 HBase 表 上 运行 MapReduce 作 业 是 一 种 拉 (pull) 机 制 : 这 


种 作业 从 HBase 表 里 读 出 数据 〈 也 就 是 说 ， 数 据 被 拉 出 来 ) ， 然 后 写 入 
你 选择 的 输出 目标 。 

你 可 以 通过 几 种 方法 在 HBase 上 使 用 MapReduce 进 行 备份 。HBase 
为 此 随机 附带 了 一 些 预 先 打 包 的 作业 。 下 面 我 们 来 介绍 如 何 使 用 它们 
进行 备份 。 

1. 导入 /导出 (Import/Export) 

预 打 包 的 导出 MapReduce 作 业 (Export) 可 以 用 来 把 HBase 表 里 的 
数据 导出 到 平面 文件 。 然 后 再 使 用 导入 作业 (Import) 把 这 些 数据 导入 
到 同一 个 或 者 为 一 个 集群 上 为 一 个 HBase 表 里 。 

Export 作 业 以 数据 源 表 名 字 和 输出 目录 名 字 作 为 输入 参数 。 你 也 可 
以 提供 时 间 版 本 数量 、 起 始 时 间 戳 、 结 束 时 间 惟 和 过 滤器 等 来 精细 地 
控制 从 源 表 里 读 出 什么 数据 。 从 表 里 递 增 读 取 数 据 时 ， 使 用 起 始 时 间 
内 和 结束 时 间 戳 是 非常 有 用 的 。 

这 些 数据 以 Hadoop 序 列 化 文件 的 格式 被 高 效 写 出 到 指定 的 输出 目 
杂 里 ， 随 后 使 用 导入 作业 把 这 个 目录 下 的 数据 导入 到 男 一 个 HBase 表 
里 。 序 列 化 文件 是 有 键 的 ， 每 个 键 值 对 的 格式 是 从 行 键 到 Result 实 例 : 


$ hbase org.apache.hadoop .hbase.mapreduce .Export 
Usage: Export [-D<property=value>]* <tablename> <outputdir> 
[<versions> [<starttime> [<endtime>]] 
[^ [regex pattern] or [Prefix] to filter]] 


Note: -D properties will be applied to the conf used. 

For example: 
-Dmapred.output .compress=true 
-Dmapred.output .compression.codec=org.apache.hadoop.io.compress .GzipCodec 
-Dmapred.output .compression.type=BLOCK 

Additionally, the following SCAN properties can be specified 

to control/limit what is exported.. 
-Dhbase.mapreduce.scan.column.family=<familyName> 


下 面 是 把 mytable 表 导出 到 export_out 目 录 的 一 个 命令 示例 |: 
$ hbase org.apache.hadoop.hbase.mapreduce.Export mytable export out 
12/07/10 04:21:29 INFO mapred.JobClient: Default number of map tasks: null 
12/07/10 04:21:29 INFO mapred.JobClient: Setting default number of map tasks 
based on cluster size to : 12 


让 我 们 检查 export_out 目录 的 内 容 。 该 目录 应 该 包含 一 系列 来 目 
map 任务 的 输出 文件 : 


$ hadoop fs -ls export out 
Found 132 items 


-rW-r--r-- 2 hadoop supergroup 0 2012-07-10 04:39 /user/hadoop/ 
export out/_SUCCESS 
-rwWw-r--r-- 2 hadoop supergroup 441328058 2012-07-10 04:21 /user/hadoop/ 


export out/part-m-00000 


-rwW-r--r-- 2 hadoop supergroup 470805179 2012-07-10 04:22 /user/hadoop/ 
export out/part-m-00001 


-IW-I--I-- 2 hadoop supergroup 536946759 2012-07-10 04:27 /user/hadoop/ 
export out/part-m-00130 


Import 作 业 是 Export 作 业 的 反 回 处 理 。Import 作 业 从 源 文件 里 读 出 
记录 ， 根 据 保存 的 Result 实例 创建 Put 实例 。 然 后 把 这 些 Put 通过 
HTable API 写 到 目标 表 。Import 作业 在 执行 时 不 提供 花样 繁多 的 过 渡 
或 者 数据 控制 功能 。 如 果 想 进行 额外 的 控制 ， 你 需要 建立 Importer 实 现 
的 子 类 并 且 履 盖 map 芳 数 。 这 个 工具 很 简单 ， 它 的 调用 也 很 简单 : 
$ hbase org.apache.hadoop .hbase.mapreduce . Import 
Usage: Import <tablename> <inputdir> 

把 前 面 例子 里 导出 的 表 导 入 男 一 个 叫做 myimporttable 的 表 的 命令 
如 下 : 
$ hbase org.apache.hadoop.hbase.mapreduce.Import myimporttable export out 

作业 完成 后 ， 你 的 目标 表 里 保存 了 导出 的 数据 。 

2. 使 用 ImportTsv 的 高 级 导入 方式 

Import 写 Export 相 辅 相 成 ， 但 有 些 人 简单，ImportTsv 的 功能 则 非常 丰 
富 。 它 文 持 你 从 有 换行 符 的 之 分 隅 符 文本 文件 加 载 数据 。 最 第 见 的 是 
以 制 表 符 为 分 隔 符 ， 但 分 隔 符 是 可 以 设置 的 (如 加 载 以 逗号 为 分 隔 符 
的 文件 ) 。 你 可 以 指定 一 个 目标 表 ， 然 后 提供 从 数据 文件 里 的 列 到 
HBase 里 的 列 的 对 应 关系 : 


$ hbase org.apache.hadoop.hbase.mapreduce.ImportTsV 
Usage: importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir> 


Imports the given input directory of TSV data into the specified table. 


The column names of the TSV data must be specified using the 
-Dimporttsv.columns option. This option takes the form of 
comma-separated column names, where each column name is either a 
simple column family, or a columnfamily:qualifier. The special column 
name HBASE ROW KEY is used to designate that this column should be 
used as the row key for each imported record. You must specify exactly 
one column to be the row key, and you must specify a column name for 
every column that exists in the input data. 


By default importtsv will load data directly into HBase. To instead 
generate HFiles of data to prepare for a bulk data load, pass the 
option: 

-Dimporttsv.bulk.output=/path/for/output 

Note: if you do not use this option, then the target table must 
already exist in HBase 


Other options that may be specified with -D include: 
-Dimporttsv.skip.bad.lines=false - fail if encountering an invalid 
line '-Dimporttsv.separator=|' - eg separate on pipes instead of 
tabs 
-Dimporttsv.timestamp=currentTimeAsLong - use the specified 
timestamp for the import 
-Dimporttsv.mapper.class=my.Mapper - A user-defined Mapper to use 

instead of org.apache.hadoop.hbase.mapreduce.TsvIimporterMapper 


这 个 作业 的 目标 是 成 为 一 个 灵活 的 工具 ， 它 甚至 允许 你 履 盖 
Mapper 类 (在 解析 输入 文件 时 会 用 到 这 个 类 ) 。 你 还 可 以 用 ImportTsv 
创建 HFile 而 不 是 在 目标 部 署 上 执行 Put。 这 被 称 为 批量 导入 (bulk 
import) 。 它 绕 过 了 HTable API， 比 常规 的 导入 快 得 多 。ImportTsv 确实 
需要 在 运行 时 访问 目标 表 。ImportTsv 会 检查 表 的 region 边界 ， 并 且 使 
用 这 些 拆 分 定 界 符 来 决定 创建 多 少 个 HFile。 

在 HFile 被 创建 后 ， 需 要 把 它们 加 载 到 表 里 。LoadIncrementalHFiles 
实用 工具 〈 也 叫做 completebulkload) 用 来 处 理 在 HBase 中 安装 和 激活 一 
张 表 的 新 HFile 的 复杂 工作 。 因 为 这 种 操作 需要 认真 考虑 以 确保 新 的 
HFile 可 以 匹配 目标 表 的 配置 ， 所 以 它 是 很 复杂 的 工作 。 
LoadIncrementalHFiles 工 具 为 你 处 理 这 些 工作 ， 它 可 以 拆 分 任意 一 个 源 


HFile 以 便 每 一 个 HFile 适合 单个 region 的 键 范 围 。 这 些 HFile 被 移动 
(move) 到 位 ， 而 不 是 复制 (copy) ， 所 以 在 你 运行 该 命令 后 源 数据 
消失 了 ， 不 要 感到 惊讶 。 和 针对 在 HDFS 上 阶段 性 出 现 的 HFile， 运 行 该 工 

具 如 下 所 示 : 


$ hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 
usage: completebulkload /path/to/hfileoutputformat-output tablename 


让 我 们 创建 一 张 预 拆 分 表 ， 然 后 批量 加 载 一 个 制 表 符 分 隔 的 文件 
到 表 里 : 
(1) 创建 一 张 拆 分 为 10 个 region 的 预 拆 分 表 : 


$ for i in {1..10}; do echo $i >> splits.txt ; done 
S eat Bollty Et 
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2 

3 
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5 

6 

多 

8 

9 

10 

$ hadoop fs -put splits.txt ./ 
$ echo "create 'bulk import', 'a', {SPLITS FILE => 'splits.txt'}" | \ 


hbase shell 
0 row(s) in 2.3710 seconds 


(2) 往 这 张 表 里 导入 制 表 符 分 隔 的 文件 。 你 可 以 使 用 文件 里 的 第 
三 列 作为 HBase 表 的 行 键 。 输 入 的 制 表 符 分隔 的 文件 是 my_input_file， 
创建 的 HFile 将 被 存储 在 输出 目录 hfile_output: 


$ hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \ 
Dimporttsv.columns=a:lon,a:lat,HBASE ROW KEY,a:name,a:address,a:ci 
ty,a:url \ 
-Dimporttsv.bulk.output=hfile output bulk import ./my input file 
12/07/10 05:48:53 INFO util.NativeCodeLoader: Loaded the native-hadoop 
library 


(3) 通过 把 新 创建 的 HFile 转 移 到 预 拆 分 表 里 来 完成 批量 加 载 : 


$ hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles 
hfile output my bulk import table 


3. Copy Table 

你 可 以 使 用 CopyTable MapReduce 作业 来 扫描 一 张 HBase 表 并 直 
接 写 入 另 一 张 表 。 它 不 会 创建 中 间 的 平面 文件 ， 而 是 直接 执行 Put， 复 
制 到 输出 目标 表 。CopyTable 作 业 的 输出 目标 表 可 能 是 同一 个 集群 上 的 
另 一 张 表 ， 也 可 能 是 完全 不 同 集群 上 的 一 张 表 。 该 作业 也 可 以 像 
Export 作业 一 样 被 荆 予 起 始 时 间 惟 和 结束 时 间 惟 ， 这 文 持 更 精细 地 挖 
制 数据 的 读 取 。 它 也 文 持 输入 源 和 输出 目标 HBase 部 署 不 同 的 情况 ， 也 
下 是 说 ， 可 以 用 不 同 的 RegionServer 实 现 。 

执行 CopyTable 作 业 的 过 程 包括 在 输入 源 部 署 上 执行 一 个 
MapReduce 作 业 并 把 数据 复制 到 输出 目标 部 署 上 。 其 调用 如 下 所 示 : 


$ hbase org.apache.hadoop.hbase.mapreduce.CopyTable 


Usage: CopyTable [--rs.class=CLASS] [--rs.impl=IMPL] [--starttime=X] 
[--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] 
<tablename> 

Options: 

rs.class hbase.regionserver.class of the peer cluster 
specify if different from current cluster 
rs.impl hbase.regionserver.impl of the peer cluster 
starttime beginning of the time range 
without endtime means from starttime to forever 
endtime end of the time range 
new.name new table's name 
Peer .adr Address of the peer cluster given in the format 
Zookeeer .quorum: Zookeeper.client .port:zookeeper.znode.parent 
families comma-separated list of families to copy 


To copy from cfl1 to cf2, give sourceCfName:destCfName. 
To keep the same name, just give "cfName" 


Args: 
tablename Name of the table to copy 


从 一 个 集群 把 mytable 表 复制 到 另 一 个 远程 集群 上 拥有 相同 名 字 的 
表 的 命令 示例 如 下 : 


$ hbase org.apache.hadoop.hbase.mapreduce.CopyTable \ 
--peer.adr=destination-zk:2181:/hbase --families=a mytable 


10.4.3 备份 根 目录 


HBase 把 它 的 数据 存储 在 由 hbase.rootdir 配 置 属性 指定 的 目录 里 。 
该 目录 包含 所 有 region 的 信息 、 所 有 表 的 HFile 信 息 及 所 有 RegionServer 
的 预 写 日 志 (WAL) 。 本 质 上 ， 这 是 保存 所 有 东西 的 地 方 ， 但 是 并 不 
需要 采用 一 个 重要 的 备份 方案 来 复制 这 个 目录 (使 用 distcp) ， 尤 其 是 
在 运行 的 集群 里 。 

当 一 个 HBase 和 集群 启 动 并 运行 时 ， 几 件 事 情 一 直 在 进行 : 
MemStore 刷 写 ，region 拆 分 、 合 并 等 。 所 有 这 些 事情 会 导致 确 层 存储 的 
数据 发 生 改 变 ， 这 使 得 复制 HBase 根 目 孙 变 得 无 天 紧要 。 夯 一 个 重要 
因素 是 ， 在 运行 的 系统 里 MemStore 里 保存 着 还 没有 刷 写 的 数据 。 即 使 
没有 发 生 其 他 事情 ，HBase 根 目录 的 副本 也 不 一 定 可 以 完全 代表 系统 的 
当前 状态 。 

但 是 如 果 你 彻底 停止 了 HBase 守护 进程 ，MemStore 被 刷 写 了 ， 并 
且 根 目录 不 会 被 任何 进程 更 改 了 。 此 时 ， 复 制 整个 根 目 录 可 能 是 一 个 
好 的 时 间 点 备份 方案 。 但 是 增 量 备份 仍然 是 个 问题 ， 这 使 得 这 个 方案 
缺少 可 行 性 。 如 有 果 需 要 从 备份 的 根 目录 里 进行 恢复 则 非常 简单 ， 让 
HBase 指 同 这 个 新 的 根 目 录 ， 然 后 启动 HBase 束 可 以 了 。 


10.5 小 结 


任何 软件 系统 的 生产 级 别 运 维 都 需要 随 着 时 间 慢 慢 掌 握 。 本 章 介 
绍 了 在 生产 环境 运营 HBase 的 几 个 方面 内 容 ， 和 希望 你 开始 掌握 这 些 概 
念 。HBase 用 户 可 能 会 基于 这 些 概念 开发 出 新 的 工具 和 脚本 ， 你 会 从 中 
受益 。 这 些 基 本 的 HBase 运 维 概念 会 帮助 你 理解 什么 时 间 、 什 么 地 方 和 
如 何 使 用 它们 对 你 有 利 。 

运 维 的 第 一 步 是 选择 工具 和 监控 集群 系统 ， 这 是 本 章 开始 的 地 
方 。 我 们 研究 了 各 种 监控 系统 和 机 制 ， 然 后 研究 让 人 感 兴趣 的 不 同 监 


控 指 标 。 先 是 一 些 通用 监控 指标 ， 它 们 是 无 论 系统 上 运行 什么 负载 都 
应 该 监控 的 监控 指标 ， 然 后 是 一 些 专门 针对 某 种 工作 负载 ( 读 或 者 
写 ) 的 监控 指标 。 

监控 部 分 之 后 ， 本 章 转 而 讨论 性 能 测试 、 性 能 评估 和 针对 不 同 种 
类 的 工作 负载 优化 HBase 的 性 能 。 性 能 测试 是 了 解 如 何 优化 HBase 集 
群 和 怎么 做 让 集群 性 能 表现 最 佳 的 关键 。 优 化 HBase 的 性 能 涉及 如 何 
使 用 不 同 的 配置 参数 ， 具 体 的 配置 方案 取决 于 计划 使 用 集群 的 工作 负 
载 的 类 型 。 

随后 ， 我 们 研究 了 一 系列 常见 管理 任务 以 及 如 何 和 什么 时 候 使 用 
它们 。 其 中 一 些 是 被 执行 得 更 为 频 党 的 和 营 见 管理 任务 ， 而 其 他 的 任务 
则 是 更 有 针对 性 地 处 理 某 些 情 况 。 最 后 ， 本 章 研 究 了 备份 和 复制 策 
略 ， 讨 论 了 灾难 恢复 时 的 各 见 做 法 以 及 当前 你 有 什么 选择 。 

精通 HBase 的 运 维 需 要 了 解 其 内 部 工作 机 制 ， 以 及 使 用 该 系统 获得 
的 经 验 。 我 们 都 布衣 HBase 是 一 种 目 我 优化 和 目 我 管理 的 系统 ， 但 它 
还 不 是 。 我 们 希望 它 尽 快 成 为 那样 的 系统 ， 你 的 经 验 无 疑 可 以 为 这 个 
目标 添砖加瓦 。 
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阶 录 人 探索 HBase 系统 


在 阅读 本 书 的 过 程 中 ， 你 学 习 了 一 些 关 于 HBase 是 如 何 设计 的 以 
及 HBase 如 何 横 跨 不 同 的 服务 絮 分 布 负 载 的 理论 。 让 我 们 深入 系统 ， 
探索 一 下 这 些 理论 是 如 何 实际 工作 的 。 百 先 ， 我 们 会 看 看 ZooKeeper 是 
如 何 管理 HBase 实 例 的 。 当 HBase 以 单机 模式 运行 时 ，ZooKeeper 与 
HBase Master 运行 在 同一 个 JVM 中 。 在 第 9 章 ， 我 们 学 习 了 HBase 的 完 
全 分 布 式 部 署 ， 在 那里 ZooKeeper 作 为 单独 的 服务 运行 。 现 在 ， 让 我 们 
测试 各 个 命令 ， 看 看 对 于 你 的 部 署 ，ZooKeeper 可 以 给 出 什么 信息 。 

A.1 探索 ZooKeeper 


直接 访问 ZooKeeper 的 主要 接口 是 HBase Shell。 局 动 HBase Shell， 
运行 zk_dump 命 令 。 


输出 ZooKeeper 记 


二 3 > Ls A 
i HBase 女 显示 该 HBase 安装 a 
装 的 信息 的 父 znode 显示 当前 一 切 都 以 单 
hbase (main) :007:0> zk dump < 一 一 一 机 模式 运行 在 本 机 上 ， 
4 
HBase is rooted at /hbase < 一 一 om 


Active master address: localhost,37150,1332994662074 


为 -ROOT- 表 
Backup master addresses: 提供 服务 的 
pa 日 \ 


Region server holding ROOT: localhost,41893,1332994662888 RegionServer 
Region servers: 
localhost,41893,1332994662888 ZooKeeper 保存 组 成 集群 的 Region 
Quorum Server Statistics: Server 列表 。 当 RegionServer 上 线 
localhost:2181 时 会 到 ZooKeeper 里 登记 


本 例 中 ZooKeeper quorum 
只 有 一 个 节点 ， 就 是 本 机 


Zookeeper version: 3.4.3-1240972, built on 02/06/2012 10:48 GMT 
Clients: 


我 们 再 来 看 一 下 完全 分 布 式 HBase 系 统 运行 zk_dump 的 例子 。 我 们 
列 出 一 个 运行 中 集群 的 输出 信息 ， 这 里 隐藏 了 主机 名 。 粗 体 显示 的 部 
分 与 上 面 提 到 的 类 似 : 


hbase (main) :030:0> > zk dump 
HBase is rooted at /hbase 
Master address: 01l.mydomain.com:60000 
Region server holding ROOT: 06.mydomain.com:60020 
Region servers: 
06.mydomain.com:60020 
04.mydomain.com:60020 
02.mydomain.com:60020 
05.mydomain.com:60020 
03.mydomain.com:60020 
Quorum Server Statistics: 
03.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
CllLents 


02.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


01.mydomain.com:2181 
Zookeeper version: 3.3.4-cdh3u3--1, built on 01/26/2012 20:09 GMT 
Clients: 


如 果 你 可 以 访问 某 个 集群 ， 请 在 Shell 里 运行 命令 ， 看 看 ZooKeeper 
可 以 告诉 你 关于 系统 的 哪些 信息 。 这 些 信 
轧 会 非常 有 用 一 一 集群 中 有 哪些 机 可 ， 每 台 机 俩 的 角色 ， 以 及 最 重要 
的 ， 哪 台 机 器 为 -ROOT 表 提 供 :服务 。 HBase 客户 端 应 用 需要 所 有 这 些 
信息 来 执行 读 写 操作 。 请 注意 ， 在 这 个 过 程 中 我 们 并 不 需要 为 此 编写 
应 用 代码 ， 客 户 端 库 会 帮 你 处 理 所 有 这 一 切 

客户 端 自动 处 理 与 ZooKeeper 的 通信 ， 并 获取 要 访问 的 相关 
RegionServer。 让 我 们 继续 了 解 -ROOT 和 .META. 表 ， 更 好 地 理解 它们 
包含 什么 信息 ， 以 及 客户 端 如 何 使 用 这 些 信息 。 

A.2 探索 -ROOT- 

让 我 们 看 看 一 直 为 TwitBase 使 用 的 单机 HBase 实 例 ， 下 面 是 该 单机 
实例 的 -ROOT 表 信 息 : 


hbase (main) :030:0> Scan ! -ROOT-: 


ROW COLUMN+CELL 

.META.,, column=info:regioninfo, timestamp=1335465653682, 

由 value={NAME = META Lt, BIARTKEY Ss TH, ENDKEY 
=> '', ENCODED => 1028785192,，} 

.META.,, column=info:server, timestamp=1335465662307, 

1 value=localhost:58269 

.META.,, column=info:serverstartcode, 

1 timestamp=1335465662307, value=1335465653436 

.META.,, column=info:v, timestamp=1335465653682, 

1 value=\x00\x00 


1 row(s) in 5.4620 seconds 
让 我 们 检查 一 下 -ROOT- 表 的 内 容 。-ROOT 表 存储 了 关于 .META. 表 
的 相关 信息 。 当 客户 端 需要 定位 HBase 中 存储 的 数据 时 ， 它 查找 的 第 一 
个 地 方 是 -ROOT- 表 。 在 这 个 例子 中 ，-ROOT- 表 中 只 有 一 行 ， 该 行 对 应 
全 部 .META. 表 。 就 像 用 户 定义 的 表 一 样 ， 当 存储 数据 量 超过 单个 
region 容量 时 ，.META. 表 也 会 进行 拆 分 。 但 与 用 户 定 义 的 表 不 同 的 
是 ，.META. 表 中 存储 的 是 HBase 中 用 户 表 的 region 的 信息 ， 这 意味 
着 .META. 表 完全 由 系统 进行 管理 。 在 这 个 例子 中 ，.META. 表 里 使 用 一 
个 region 就 可 以 存储 所 有 信息 。-ROOT- 表 中 对 应 的 记录 包含 根 
据 .META. 表 名 定义 的 行 键 和 那个 region 的 起 始 键 。 因 为 只 有 一 个 
region， 所 以 记录 里 那个 region 的 起 始 键 和 结束 键 都 是 空 的 。 这 表示 那 
个 region 托 管 全 体 键 区 间 。 
A.3 探索 .META. 
前 面 -ROOT- 表 中 的 记录 还 会 告诉 我 们 哪 台 机 吏 托 管 .META. 表 对 应 
的 region。 本 例 中 ， 因 为 HBase 以 单机 模式 运行 ， 所 有 的 内 容 都 在 本 机 
(localhost) 上 ， 所 以 可 以 看 到 有 一 列 (server 列 ) 的 值 是 
localhost:port。 还 有 一 列 (regioninfo 列 ) 包含 了 region 的 名 字 起 始 键 、 


结束 键 、 
们 而 言 并 不 重要 。 


以 及 编码 后 的 名 字 。 
) 当 你 在 应 用 代码 中 执行 操作 时 ，HBase 客 户 端 库 使 


(编码 后 的 名 字 供 系统 内 部 使 用 ， 对 我 


用 所 有 这 些 信息 来 准确 定位 需要 联系 的 region。 如 采 系 统 中 没有 其 他 


表 ，.META. 表 显示 如 下 : 


hbase (maiDn) 


ROW 
0 row(s) 


请 注意 ， 


.META. 表 是 空 的 。 这 是 因为 HBase 中 i 


:030:0> Scan ' 。 META 。! 
COLUMN+CELL 


in 5.4180 seconds 


还 没有 用 户 定 义 的 


表 。 创 建 users 表 的 实例 后 ，.META. 表 显示 如 下 : 


hbase (main) :030 : 


ROW 


users,,1335466383956.4al 
5eba38d58db71lelc7693581 
a 


users,,1335466383956.4al 
Seba38d58db71llelc7693581 
EE 


users,,1335466383956.4al 
5eba38dq58dqb711elc7693581 
ETE 


1 row(s) in 0.4540 seconds 


在 当前 环境 中 ，.META. 中 的 信息 大 概 就 是 这 
(disable) 和 删除 (delete) users 表 ， 然 后 查 
之 后 再 重新 创建 users 表 。 和 创建 表 的 操作 一 样 ， 禁 


些 尝试 ， 可 以 禁 
看 .META. 的 信息 ， 


0> Scan '.META.'!' 


COLUMN+CELL 


column=info:regioninfo, 


timestamp=1335466384006, value={NAME => 


'users, ,1335466383956.4alS5eba38d58 
db71lelc7693581af7f1l.'; STARTKEY 三 TY， 
ENDKEY => '', ENCODED => 


4al5eba38d58dqb711elc7693581af7f1,} 


column=info:server, timestamp=1335466384045, 
value=localhost:58269 


column=info:serverstartcode, 
timestamp=1335466384045, 


文 个 样子 ， 如 采 你 想 多 


用 和 删除 操作 也 可 以 在 HBase Shell 中 完成 。 
与 在 -ROOT- 中 看 到 的 类 似 ，.META. 包 含 了 users 表 以 及 系统 中 其 他 


表 的 信息 。 在 这 里 记录 了 你 创建 的 所 有 表 的 信息 ， 


ROOT- 的 类 似 。 


.META. 的 结构 与 - 


Value=1335465653436 


在 你 创建 TwitBase 的 users 表 实 例 并 检查 .META. 表 的 信息 后 ， 可 以 
使 用 示例 应 用 代码 中 的 LoadUsers 命 令 添 加 一 些 用 户 信息 。 当 users 表 
的 数据 增长 超过 单个 region 的 容量 后 ， 那 个 region 会 进行 拆 分 。 你 也 可 
以 手动 对 表 进 行 拆 分 ， 我 们 现在 实验 一 下 : 


hbase (main) :030:0> split 'users' 
0 row(s) in 6.1650 seconds 


hbase (main) :030:0> Scan '.META.' 


ROW COLUMN+CELL 


users,,1335466383956.4alSeba 
38d58db711elc7693581af7fl . 


Users, ,1335466383956.4al5eba 
38d58dqb711elc7693581af7fl . 


users,,1335466383956 .4al5eba 
38dG58db711elc7693581af7fl . 


users,,1335466383956.4alSeba 
38d58db711elc7693581af7f1 . 


Users,,1335466383956 .4al5eba 
38d58db711elc7693581af7f1 . 


Users,,1335466889926.9fd558e 
d44a63f01l6c0a99c4cfl41lebs5. 


users, ,1335466889926.9fd558e 
d44a63f016c0a99c4cfl41eb5. 


users, ,1335466889926.9fd558e 
dG44a63f016c0a99cd4cfl141eb5 . 


column=info:regioninfo, 
timestamp=1335466889942, value={NAME => 
'users,,1335466383956.4al5eba38d58db71le 
1c7693581laf7f1i.', STARTKEY => '', ENDKEY 
=> '', ENCODED => 
4al5eba38d58dqb711elc7693581af7fl， 
OFFLINE => true, SPLIT => true,} 


colum=info:server, 

timestamp=1335466384045, 

value=localhost:58269 
column=info:serverstartcode, 
timestamp=1335466384045， 
Value=1335465653436 


column=info:splitaAa, 
timestamp=1335466889942, value= 

{NAME => 

'uUsers, ,1335466889926.9fd558ed44a63f016 
COa99c4cfl4leb5.', STARTKEY => '', 
ENDKEY => '}7\ 
XB8E\xXC3\xD1\xE3\x0F\x0D\xE9\xFE'fIK\xB7\ 
xD6', ENCODED => 
9fd5s58ed44a63f016c0a99c4cf141leb5,} 


column=info:splitB, 
timestamp=1335466889942, value={NAME => 
'users, }7\x8E\xC3\xD1\xE3\x0OF\ 
XxOD\xE9\xFE'fIK\xB7\xD6,1335466889926 .a3 
c3a9l62eeeb8abc0358e9e31b892e6.',， 
STARTKEY => '}7\x8E\ 
XC3\xD1\xE3\xO0F\xO0D\xE9\xFE'fIK\xB7\xD6' 
, ENDKEY => '', ENCODED => 
a3c3a9162eeeb8abc0358 

e9e31b892e6,} 


columm=info:regioninfo, 
timestamp=1335466889968, value={NAME => 
'users, ,1335466889926.9fd558ed44a63f016c 
OQ0a99c4cf141leb5.', STARTKEY => '', ENDKEY 
=> '}7\x8E\xC3\ 
XD1\xE3\xOF\x0D\xE9\xFE'fIK\xB7\xD6', 
ENCODED => 
9fd558ed44a63f016c0a99c4cf141eb5,} 


column=info: server, 
timestamp=1335466889968, 
value=localhost:58269 


column=info:serverstartcode, 
timestamp=1335466889968,， 
value=1335465653436 


users, }7\x8E\xC3\xD1\xE3\x0OF 
\XxOD\xE9\xFE'fIK\xB7\xD6, 133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6. 


users, }7\x8E\xC3\xD1\xE3\x0OF 
\XOD\xE9\xFE'fIK\xB7\xD6, 133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6, 133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


3 row(s) in 0.5660 seconds 


column=info:regioninfo, 
timestamp=1335466889966, value={NAME => 
users, }7\x8E\xC3\xD1\xE3\xO0F\x0D\xE9\xF 
E'fIK\xB7\xD6,1335466889926 .a3c3a9162eee 
b8abc0358e9e31b892e6.', STARTKEY => 
'}7\x8E\xC3\xD1\xE3\xOF\ 
XOD\xE9\xFE'fIK\xB7\xD6', 
ENCODED => 
a3c3a9162eeeb8abc0358e9e31b892e6,} 
column=info:server, 
timestamp=1335466889966, 
value=localhost:58269 


ENDKEY => '', 


column=info:serverstartcode, 
timestamp=1335466889966, 
value=1335465653436 


当 你 对 users 表 进行 拆 分 后 ，.META. 表 里 会 出 现 关 于 子 region 的 新 记 


杂 。 这 些 子 region 会 蕉 换 被 拆 分 的 父 region。 父 region 的 记录 包含 拆 分 的 


言 轧 ， 并 且 不 再 服务 客户 端 请 求 。 短 时 间 内 父 region 的 信息 会 保留 
在 .META. 表 里 。 当 托管 的 RegionServer 完成 拆 分 并 清除 父 region 后 ， 
父 region 的 记录 会 从 .META. 表 里 删除 。 完 成 拆 分 后 ，.META. 表 如 下 所 


小: 


hbase (main) :030:0> Scan ! .METRA. 


ROW 


users,,1335466889926.9fd558e 
d44a63f016c0a99c4cf141leb5. 


users,,1335466889926.9fd558e 
d44a63f016c0a99c4cf141leb5. 


users,,1335466889926.9fd558e 
dq44a63f016c0a99c4cf141eb5 . 


users,}7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6,133 
5466889926.a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


users, }7\x8E\xC3\xD1\xE3\xOF 
\XOD\xE9\xFE'fIK\xB7\xD6,133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 


users,}7\x8E\xC3\xD1\xE3\x0OF 
\XO0D\xE9\xFE'fIK\xB7\xD6, 133 
5466889926 .a3c3a9162eeeb8abc 
0358e9e31b892e6 . 


COLUMN+CELL 


column=info:regioninfo, 
timestamp=1335466889968, value={NAME => 
'users,,1335466889926.9fd558ed44a63f016c 
0a99c4cf1l4leb5.', STARTKEY => '', ENDKEY 
=3 '}7\x8E\xC3\ 
XD1\xXE3\xO0F\x0D\xE9\xFE'fIK\xB7\xD6', 
ENCODED => 
9fd558ed44a63f016c0a99c4cf141leb5,} 


columm=info: server, 
timestamp=1335466889968,， 
value=localhost:58269 


column=info:serverstartcode, 
timestamp=1335466889968,， 
Value=1335465653436 


column=info:regioninfo, 

timestamp=1335466889966, value={NAME => 
users, }7\x8E\xC3\xD1\xE3\xO0F\x0D\xE9\xF 
E'fIK\xB7\xD6,1335466889926.a3c3a91l162eee 


b8abc0358e9e31b892e6.', STARTKEY => 
'}7\x8E\xC3\xD1\xE3\ 
XOF\XOD\XxE9\xFE'fIK\xB7\xD6', ENDKEY => 
11/ ENCODED => 


a3c3a9162eeeb8abc0358e9e31b892e6,} 


column=info: server, 
timestamp=1335466889966, 
value=localhost:58269 


column=info: serverstartcode, 
timestamp=1335466889966, 
Value=1335465653436 


2 row(s) in 0.4890 seconds 


你 可 能 想 知 道 ， i | 此 可 


泽 ， 不 像 是 应 该 放 入 记录 里 的 东西 。 


这 是 因为 你 看 到 的 值 古 对 输入 的 


字符 串 进 行 字 市 编码 处 理 后 的 版 本 。 


让 我 们 回顾 一 


下 客户 端 应 用 与 HBase 进行 交互 的 过 程 。 客 户 端 应 


用 发 起 get0、putO0、 或 scan0 命 令 。 为 了 执行 这 些 操 作 ，HBase 客 户 端 


库 需 要 准确 找到 为 这 些 请 求 提供 服务 的 region 服 务 器 。 这 个 寻 址 过 程 首 
先 联系 Zoo Keeper， 从 这 里 找到 -ROOT 表 的 位 置 。 然 后 联系 托管 - 
ROOT 表 的 服务 器 ， 从 -ROOT 工 表 里 读 出 指向 ,META. region 的 相关 记 
录 ， 该 .META. region 包 含 最 终 需 要 访问 的 那 张 用 户 表 的 特定 的 region 信 
晨 。 一 旦 客户 并 库 得 到 托管 服务 器 的 位 置 和 region 的 名 字 ， 它 就 用 这 些 
region 信 息 联 系 RegionServer， 请 求 提供 服务 。 

这 些 丈 是 让 HBase 权 跨 集群 分 布 数据 ， 并 且 为 任何 客户 端的 服务 
请 求 查找 相关 机 器 的 各 个 步 又 。 


Hadoop 分 布 式 文件 系统 (HDFS) 是 运行 HBase 最 常见 的 底层 分 
布 式 文件 系统 。HBase 的 许多 特性 依赖 于 HDFS 来 正常 工作 。 因 此 ， 理 
解 HDFS 如 何 工作 是 很 重要 的 。 要 理解 HDFS 的 内 部 工作 原理 ， 站 先 要 
理解 什么 是 分 布 式 文件 系统 。 

一 般 来 说 ， 讲 解 分 布 式 文件 系统 内 部 工作 机 制 的 概念 需要 整个 学 
期 的 研究 生 课 程 。 但 是 在 本 附录 里 ， 我 们 只 是 简略 介绍 概念 ， 然 后 讨 
论 你 需要 知道 的 那些 HDFS 的 细节 。 

B.1 分 布 式 文件 系统 

传统 上 ， 一 台 计 算 机 在 指定 的 应 用 程序 里 能 够 应 对 人 们 想 存 储 和 
处 理 的 数据 量 。 这 样 的 计算 机 可 能 有 多 个 硬盘， 可 以 满足 大 部 分 情况 
的 需要 一 一 直到 最 近 炬 炸 性 的 数据 增长 之 前 。 但 古 数 据 越 来 越 多 ， 超 
越 了 一 台 计 算 机 的 存储 和 处 理 能 力 ， 我 们 需要 以 某 种 方式 组 合 多 台 计 
算 机 的 能 力 来 解决 新 的 存储 和 计算 问题 。 在 这 种 系统 里 ， 多 人 台 计 算 机 
联网 协同 工作 (有 了 时 也 称 为 一 个 集群 ， 就 像 单 台 系 统一 样 解决 芭 种 问 
题 ， 我 们 称 之 为 分 布 式 系统 。 正 如 名 字 所 暗示 的 ， 计 算 工 作 走 分 布 在 
多 台 计 算 机 上 进行 的 。 

分 布 式 文件 系统 是 分 布 式 系统 的 一 个 子 集 。 它 们 解决 的 问题 是 净 
据 存储 。 换 句 话 说 ， 它 们 是 横 跨 在 多 台 计 算 机 上 的 存储 系统 。 

提示 存储 在 这 种 文件 系统 上 的 数据 目 动 分 布 在 不 同 的 节点 上 : 你 
不 必 担 心 需要 人 工 决定 哪些 数据 存放 在 哪个 节点 。 如 采 你 有 兴趣 了 解 


更 多 HDFS 的 存储 抹 略 ， 最 好 的 学 习 方 法 是 深入 人 研究 HDFS 的 源 代码 。 

分 布 式 文件 系统 为 存储 和 人 处理 来 目 网 络 和 其 他 地 方 的 超大 规模 数 
据 提 供 所 需要 的 扩展 能 力 。 因 为 集群 里 活动 零 部 件数 量 的 增多 会 导致 
故障 状态 增多 ， 提 供 这 样 的 扩展 能 力 是 一 个 挑战 。 在 大 规模 分 布 式 系 
统 里 ， 故 障 是 常态 ， 这 一 点 必须 在 设计 系统 时 考虑 进去 。 

下 面 几 方 我 们 将 研究 设计 分 布 式 文件 系统 所 面临 的 挑战 ， 以 及 
HDFS 是 如 何 解决 它们 的 。 竺 别 是 ， 你 将 学 习 HDFS 如 何 通 过 分 离 元 数 
据 和 文件 内 容 来 实现 扩展 能 力 。 然 后 ， 我 们 将 通过 深入 研究 HDFS 的 读 
写 过 程 细 市 来 解释 HDFS 的 一 任性 模型 ， 随 后 讨论 HDFS 如 何 处 理 各 种 
故障 情况 。 最 后 我 们 将 研究 如 何 把 文件 切 分 和 存储 在 构成 HDFS 的 多 个 
用 点 上 。 

下 面 让 我 们 开始 讨论 HDFS 的 主要 组 件 一 NameNode 和 
DataNode， 并 学 习 怎 样 通过 分 离 元 数据 和 数据 来 实现 扩展 能 

B.2 分 离 元 数据 和 数据 : NameNode 和 DataNode 

存储 到 文件 系统 里 的 每 个 文件 都 有 相关 联 的 元 数据 。 例 如 ， 来 目 
Web 服 务 器 的 日 志 都 是 独立 的 文件 。 它 们 的 元 数据 包括 了 文件 名 、i 节 
点 (inode) 数 、 数 据 块 位 置 等 ， 数 据 则 是 文件 的 实际 内 容 。 

在 传统 的 文件 系统 里 ， 因 为 文件 系统 不 会 跨越 多 台 机 器 ， 元 数据 
和 数据 存储 在 同一 台 机 器 上 。 当 客户 端 想 对 文件 执行 任何 操作 和 需要 
元 数据 时 ， 它 会 访问 那 台 机 器 ， 并 且 给 出 指令 执行 操作 。 所 有 事情 都 
发 生 在 单 台 机 右上。 打 个 比方 ， 假 设 你 有 一 个 Web01.log 文 件 ， 存 储 在 
*nix 系统 挂 载 在 /mydisk 目 孙 的 硬盘 上 。 为 了 访问 这 个 文件 ， 客 户 端 程 
序 只 需要 访问 (当然 ， 需 要 通过 操作 系统 ) 特定 的 硬盘 去 获取 元 数据 
和 文件 内 容 。 这 种 模式 下 ， 访 问 多 台 系 统 所 管理 的 数据 的 唯一 办 法 只 
能 是 ， 让 客户 端 记 住 数 据 是 如 何 分 布 在 不 同人 硬盘 上 的 ， 这 会 使 客户 端 
是 有 状态 的 ， 并 且 难 以 维护 。 


因为 有 状态 的 客户 端 必须 互相 分 享 状 态 信息 ， 随 着 它们 数量 的 增 
长 ， 管 理 起 来 会 变 得 越 来 越 复杂 。 例 如 ， 一 个 客户 端 在 一 台 机 融 上 和 写 
一 个 文件 ， 其 他 客户 端 为 了 以 后 访问 这 个 文件 ， 需 要 知道 文件 的 保存 
位 置 ， 它 们 必须 从 第 一 个 客户 端 获 取信 息 。 正 如 你 看 到 的 ， 在 大 型 系 
统 中 这 种 处 理 办 法 很 快 会 变 得 非常 条 拙 ， 难 以 扩展 。 

为 了 构建 一 个 分 布 式 文件 系统 ， 让 客户 端 在 这 种 系统 中 使 用 簿 
单 ， 并 且 不 需要 知道 其 他 客户 端的 活动 ， 那 么 元 数据 需要 在 客户 端 以 
外 维护 。 最 简单 的 办 法 是 ， 让 文件 系统 目 己 去 管理 元 数据 。 但 是 正如 
我 们 前 面 讨论 的 ， 把 元 数据 和 数据 存储 在 同一 位 置 是 不 可 行 的 。 解 决 
这 个 问题 的 一 个 方法 是 ， 拿 出 一 台 或 多 台 机 器 保存 元 数据 ， 让 剩 下 的 
机 器 保存 文件 的 内 容 。HDFS 的 设计 就 是 基于 这 个 理念 。 它 有 两 个 组 
件 ， 即 NameNode 和 DataNode。 元 数据 存储 在 NameNode 上 ， 而 数据 
存储 在 DataNode 的 集群 上 。NameNode 不 仅 要 管理 存储 在 HDFS 上 内 
容 的 元 数据 ， 而 且 要 记录 一 些 事情 ， 比 如 哪些 节点 是 集群 的 一 部 分 ， 
某 个 文件 有 几 份 副本 ， 等 等 。 它 还 要 决定 当 集 群 的 站点 宕 机 或 者 数据 
副本 丢失 的 时 候 需 要 做 什么 。 

这 是 我 们 第 一 次 提 到 副本 (replica) 。 我 们 将 在 后 面 详细 讨论 它 ， 
现在 你 需要 知道 的 是 ， 存 储 在 HDFS 上 的 每 份 数 据 厂 有 多 份 副本 保存 在 
不 同 的 服务 器 上 。 本 质 上 NameNode 是 HDFS 的 Master ( 主 服 务 器 ) ， 
DataNode 是 Slave (从 服务 器 ) 。 

B.3 HDFS 写 过 程 

让 我 们 回 到 前 面 Web01.log 的 那个 例子 ， 它 存储 于 挂 载 在 /mydisk 
硬盘 目录 下 。 假 设 你 可 以 使 用 一 个 大 型 分 布 式 文件 系统 ， 你 把 那个 文 
件 存储 到 上 面 。 要 不 怎么 证 明 在 那些 机 硕 上 花 钱 的 合理 性 呢 ， 对 吗 ? 
为 了 把 数据 傈 存 到 HDFS 上 ， 可 以 使 用 很 多 种 方式 。 但 是 当 你 写 入 数据 
时 ， 无 论 你 用 什么 接口 (Java API、Hadoop 命令 行 客户 端 等 ) 写 入 ， 
底层 操作 都 是 一 样 的 。 


注意 如 果 像 我 们 这 样 ， 你 喜欢 在 学 习 概 念 时 摆弄 系统 ， 我 们 鼓励 
你 这 么 做 。 但 对 本 市 来 说 不 需要 ， 你 不 必 为 了 理解 HDFS 概 念 而 丢失 数 
据 。 

比方 说 ， 你 正在 使 用 Hadoop 命 令 行 客户 端 ， 想 复制 文件 Web01.1og 
到 HDFS。 你 输入 命令 如 下 : 
$ hadoop fs -copyFromLocal /home/me/Web01.1og /MyFirstDirectory/ 

当 你 输入 这 个 命令 时 ， 了 人 解 发 生 了 什么 是 很 重要 的 。 参 考 图 B-1 至 
图 B-4， 我 们 将 一 步 一 步 理解 写 的 过 程 。 提 醒 一 下 ， 客 户 端 功能 钙 很 侧 
单 的 ， 它 不 需要 知道 HDFS 的 内 部 机 制 和 数据 是 如 何 分 布 的 。 

但 是 ， 客 户 端 可 以 从 配置 文件 中 知道 哪个 证 点 是 NameNode。 客 户 
端 发 送 一 个 请 求 给 NameNode， 说 它 要 写 Web01.log 文 件 到 HDFS (图 B- 
1) 。 正 如 你 了 解 的 ，NameNode 负 责 管理 存储 在 HDFS 上 上 所 有 文件 的 元 
数据 。NameNode 会 确认 客户 端的 请 求 ， 并 记录 下 文件 的 名 字 和 存储 这 
个 文件 的 DataNode 的 集合 。 它 把 该 信息 存储 在 内 存 中 的 文件 分 配 表 
里 。 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


7 ® ' ! 客户 端 -> NameNode: “我 想 写 入 文件 

| / | 1 ! WebOl.log。 ” 

] DataNode A[— “|DataNode B DataNode C bl 
l 1 

TO 

| DataNode D| DataNode E DataNode F >. 

I 

| HDFS ， 


图 B-1 写 操 作 : 客户 端 与 NameNode 通 信 
然后 它 把 该 信息 发 送 给 客户 端 ( 见 图 B-2) 。 现 在 客户 端 知 道 了 要 
发 送 Web01.log 的 内 容 给 哪些 DataNode 。 


i a ne ed ne i en i i nD a 


@ | ! NameNode -> 客户 端 : “ 没 问 题 ， 准 备 
! 开始 吧 。 你 可 以 写 到 DataNodes A、B 和 
G) -Ee 


' | 

L 

DataNode I DataNode E DataNode F | 
L 


图 B-2 写 操 作 : NameNode 确 认 写 操作 并 发 回 一 个 DataNode 列 表 
下 一 步 是 发 送 文件 内 容 给 那些 DataNode 〈 见 图 B-3) 。 最 早 连接 的 
DataNode 流 化 处 理 文 件 内 容 ， 并 同步 给 要 保存 这 个 文件 副本 的 其 他 
DataNode。 当 保存 这 个 文件 副本 的 所 有 DataNode 在 内 存 里 得 到 内 容 
后 ， 它 们 将 发 送 确认 给 客户 端 连 接 到 的 那个 DataNode。 随 后 数据 将 异 
步 持 久 化 到 硬盘 上 。 我 们 将 在 本 附录 的 后 面 详 细 讨 论 副本 这 个 话题 。 
最 早 连 接 的 DataNode 把 文件 已 写 入 HDFS 的 确认 发 送 给 客户 端 
( 见 图 B-4) 。 在 这 个 流程 最 后 ， 文 件 被 认为 已 写 入 HDFS， 写 操作 完 
成 o 
注意 ， 这 时 文件 仍然 在 DataNode 的 内 存 里 ， 还 没有 被 持久 化 到 硬 
盘 上 。 这 样 做 是 出 于 性 能 方面 的 考虑 : 提交 所 有 副本 到 硬盘 会 增加 完 
成 写 操作 的 时 间 。 一 旦 数据 到 了 内 存 ，DataNode 就 会 尽快 持久 化 到 硬 
盘 上 。 写 操作 不 会 阻塞 在 这 里 。 


! 客户 端 -> DataNode B: “这 是 Web0l.log 
! 的 内 容 。 请 保存 一 份 ， 并 且 分 别 发 送 一 份 ! 
! 副本 给 DataNode A 和 D。” 1 
| 
! DataNode B -> DataNode A: “这 是 文件 ! 
A Sd) a ! Web01.log。 请 保存 一 份 ， 并 发 送 一 份 副本 ， 


pa ! 给 DataNode D。” 

l 

1 

| 

| 1 

| HDFS! | DataNode A -> DataNode B: “确认 。” 


| 


1 
! DataNode A -> DataNode D: “这 是 文件 ， 
! Web01.log。 请 保存 一 份 。” 1 


! DataNode D -> DataNode A: “确认 。?” 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


! DataNode B -> 客户 端 : “确认 。 你 的 写 
! 入 现在 完成 了 。” 


一 一 一 一 一 一 一 大 一 一 一 广 一 一 一 一 一 一 一 一 一 一 一 一 一 一 上 上 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


© 


DataNode A[—™ 
RO 


DataNode DI DataNode E DataNode F 


图 B-4 写 操作 : DataNode 确 认 写 操作 完成 

在 分 布 式 文件 系统 中 ， 挑 战 之 一 是 数据 一 致 性 (consistency) 。 换 
句 话说 ， 你 如 何 确保 存在 系统 的 数据 在 所 有 方 点 上 是 一 致 的 ? 因为 所 
有 六 点 独立 保存 数据 并 量 一 般 彼此 不 进行 通信 ， 所 以 必须 找到 一 种 方 
法 来 确保 所 有 市 点 都 保存 相同 的 数据 。 例 如 ， 当 客户 端 想 读 取 
Web01.log 文件 时 ， 应 该 能 从 所 有 的 DataNode 里 读 取 完全 相同 的 数 
据 。 回 顾 写 的 过 程 ， 我 们 注意 到 直到 所 有 要 保存 数据 的 DataNodes 人 确认 
它们 都 有 文件 的 副本 时 ， 数 据 才 被 认为 写 入 完成 。 这 意味 着 所 有 应 该 
傈 存 指定 数据 副本 的 DataNode 在 写 入 完成 之 前 ， 拥 有 完全 相同 的 内 
容 。 换 句 话 说， 数据 一 致 性 是 在 写 的 阶段 完成 的 。 一 个 客户 端 无 论 选 
择 从 哪个 DataNode 读 取 ， 都 将 得 到 相同 的 数据 。 


B.4 HDFS 读 过 程 

现在 你 知道 文件 是 怎么 被 写 入 HDFS 了 。 一 个 能 够 写 入 数据 ， 但 不 
能 读 回 数据 的 系统 是 很 奇怪 的 。 当 然 ，HDFS 不 是 这 样 的 系统 。 从 
HDFS 读 取 一 个 文件 与 写 入 一 样 容 易 。 让 我 们 看 看 ， 当 你 想 查 看 之 前 写 
入 的 文件 内 容 时 ， 文 件 是 怎样 被 恋 回 的 。 

再 说 明 一 下 ， 读 取 一 个 文件 时 所 发 生 的 故 层 处 理 过 程 和 使 用 的 接 
口 形式 无 天 。 如 果 你 使 用 命令 行 客户 端 ， 可 以 输入 下 面 的 命令 复制 文 
件 到 你 的 本 地 文件 系统 ， 这 样 你 束 能 用 编辑 右 打 开 它 了 。 
$ hadoop fs -copyToLocal /MyFirstDirectory/Web01.1log /home/me/ 

让 我 们 看 看 ， 当 你 运行 该 命令 时 发 生 了 什么 。 首先 客 户 端 询 问 
NameNode 它 应 该 从 哪里 读 取 那 个 文件 〈 见 图 B-5) 。 


! 客户 端 -> NameNode: “我 想 读 取 文 件 
! Web01.log 
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图 B-5 读 操 作 : 客户 端 联系 NameNode 
NameNode 发 送 数据 块 的 信息 给 客户 端 〈 见 图 B-6) 。 


人 A 人 ! NameNode -> 客户 端 : “当然 可 以 ， 准 备 


1 开始 吧 。 你 可 以 从 DataNode B 读 取 block- 


11 和 从 DataNode C 读 取 block-2。 站 


图 B-6 读 操作 : NameNode 确 认 读 操作 并 返回 数据 块 信息 给 客户 端 

数据 块 信息 包含 了 保存 着 文件 副本 的 DataNode 的 IP 地址 ， 以 及 
DataNode 在 本 地 硬盘 查找 数据 块 所 需要 的 数据 块 ID。 对 所 有 的 数据 块 
而 言 ， 它 们 的 ID 都 是 唯一 的 ， 这 是 DataNode 为 了 在 本 地 人 硬盘 上 识别 出 
数据 块 所 需要 的 唯一 信息 。 客 户 端 检查 这 个 信息 ， 联 系 相关 的 
DataNode， 请 求 数 据 块 ( 见 图 8-7) 。 


! 客户 端 -> DataNode B: “我 想 读 取 block-1。”! 
1 


| UL 
| ' 
| 1 
| / / DataNode A at > 1 
l ' 
[Er / 
| 1 
| DataNode DataNode E DataNode F - 
| 1 
| 
| 


图 B-7 二 操作 ， 客 户 问 联系 相应 的 DataNode 并 请 求 数据 块 的 内 容 
DataNode 返 回 文件 内 容 给 客户 端 ( 见 图 B-8) ， 然 后 关闭 连接 。 完 
成 读 的 步骤 。 
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图 B-8 读 操 作 : DataNode 发 送 数据 块 内 容 给 客户 端 。 完 成 读 步 又 
这 是 我 们 在 HDFS 中 的 文件 语 境 中 第 一 次 提 到 数据 块 (block) 这 个 
名 词 。 为 了 理解 读 的 过 程 ， 可 以 认为 一 个 文件 是 由 存储 在 DataNode 上 
的 数据 块 组 成 的 。 在 本 附录 的 后 面 我 们 将 进一步 讲解 这 个 概念 。 
注意 ， 客 户 端 是 并 行 从 不 同 的 DataNode 中 获取 一 个 文件 的 数据 块 
的 ， 然 后 联结 这 些 数据 块 ， 拼 成 完整 的 文件 。 客 户 端 库 文 持 这 种 逻 
辑 ， 写 代码 的 用 户 不 需要 为 此 手动 做 任何 事 。 
所 有 的 操作 都 在 底层 完成 。 很 简单 吧 。 
B.5 通过 副本 快速 恢复 硬件 故障 
在 大 型 分 布 式 系统 中 ， 和 硬盘 和 网 络 故 障 是 常见 的 。 如 果 发 生 故 
障 ， 我 们 期 望 系统 能 够 正常 工作 而 不 丢失 数据 。 让 我 们 看 看 副本 的 重 
要 性 和 HDFS 如 何 处 理 故 障 情况 。 (你 可 能 觉得 我 们 应 该 早点 讲 这 些 内 
容 一 一 稍 等 一 会 儿 ， 你 就 明白 了 。) 
当 一 切 运 行 正常 时 ，DataNode 会 周期 性 发 送 心 跳 信息 给 NameNode 
(默认 是 每 3 秒 钟 一 次 ) 。 如 果 NameNode 在 预定 的 时 间 内 没有 收 到 心 
跳 信 息 〈 默 认 是 10 分 钟 ) ， 它 会 认为 DataNode 出 问题 了 ， 把 它 从 集群 
中 移 除 ， 并 且 启 动 一 个 进程 去 恢复 故障 。DataNode 可 能 因为 多 种 原因 
脱离 集群 ， 如 硬盘 故障 、 主 板 故 障 、 电 源 老 化 、 网 络 故 障 等 。HDFS 从 
这 些 故 障 中 恢复 的 方法 是 相同 的 。 


对 HDFS 来 说 ， 丢 失 一 个 DataNode 意 味 着 丢失 了 存储 在 它 的 硬盘 上 
的 数据 块 的 副本 。 假 如 在 任意 时 间 总 有 超过 一 个 副本 存在 (默认 3 
个 ) ， 故 障 将 不 会 导致 数据 丢失 。 当 一 个 硬盘 故障 时 ，HDFS 会 检测 到 
存储 在 该 硬盘 的 数据 块 的 副本 数量 低 于 要 求 ， 然 后 主动 创建 需要 的 副 
本 ， 以 达到 满 副 本 数 状 态 。 

有 一 种 情况 ， 多 个 硬盘 一 起 发 生 故 障 ， 并 且 一 个 数据 块 的 所 有 副 
本 全 部 丢失 ， 这 样 HDFS 将 丢失 数据 。 例 如 ， 由 于 网 络 分 区 的 原因 ， 保 
存在 各 蔬 点 的 某 文件 副本 全 部 丢失 在 理论 上 是 可 能 的 。 也 有 可 能 是 因 
为 电源 故障 导致 整个 机 架 宕 机 。 但 是 这 些 情况 很 少 发 生 ;， 并 且 当 系统 
被 设计 成 保存 绝对 不 能 丢失 的 关键 数据 时 ， 必 然 会 采取 一 些 防 范 这 些 
故障 的 措施 一 比如 ， 位 于 不 同 数据 中 心 的 多 个 集群 互相 备份 。 

HBase 使 用 HDFS 作 为 底层 文 撑 系统 ， 这 意味 着 HBase 不 用 担心 存 
入 数据 的 副本 问题 。 这 是 一 个 重要 的 因素 ， 因 为 它 影响 到 HBase 提 供给 
客户 端的 数据 一 致 性 。 

B.6 跨 多 个 DataNode 切 分 文件 

前 面 ， 我 们 研究 了 HDFS 写 的 过 程 。 我 们 提 到 在 写 操作 被 确认 完成 
前 ， 文 件 将 被 复制 成 3 份 ， 其 实 还 做 了 更 多 事情 。 在 HDFS 里 ， 文 件 被 
切 分 成 数据 块 ， 通 常 每 个 数据 块 64MB~128 MB， 然 后 每 个 数据 块 被 写 
入 文件 系统 。 同 一 个 文件 的 不 同 数据 块 不 一 定 保存 在 相同 的 DataNode 
上 上。 实际 上 ， 不 同 的 数据 块 保存 到 不 同 的 DataNode 是 有 好 处 的 。 为 什 
么 呢 ? 

当 你 有 一 个 能 存储 海量 数据 的 分 布 式 文件 系统 时 ， 你 可 能 想 往 上 
面 存放 超大 文件 一 例如 ， 像 实验 室 里 完成 的 亚 原子 微粒 大 型 仿真 实验 
的 输出 。 有 时 候 ， 这 种 文件 的 大 小 会 超过 单个 硬盘 的 容量 。 你 可 以 把 
它们 存储 到 一 个 分 布 式 文件 系统 上 ， 先 把 它们 切 分 成 数据 块 ， 再 分 散 
存放 到 多 个 节点 ， 这 样 问题 束 解 决 了 。 


把 数据 块 分 散 到 多 个 DataNode 还 有 其 他 好 处 。 当 你 对 这 些 文件 执 
行 运算 时 ， 你 能 通过 并 行 方式 读 取 和 处 理 文 件 的 不 同 部 分 。 

你 可 能 想 知 道 ， 如 何 把 文件 切 分 成 数据 块 ， 谁 决定 各 个 数据 块 应 
该 存放 到 哪个 DataNode。 当 客户 端 准 备 写 文件 到 HDFS 并 询问 
NameNode 应 该 把 文件 写 到 哪里 时 ， NameNode 会 告诉 客户 端 ， 那 些 可 
以 写 入 数据 块 的 DataNode。 写 完 一 批 数 据 块 后 ， 客 户 端 会 回 到 
NameNode 获 取 新 的 DataNode 列 表 ， 把 下 一 批 数 据 块 写 到 新 列表 中 的 
DataNode 上 。 

信 不 信 由 你 ， 现 在 你 掌握 的 HDFS 知 识 已 经 足够 理解 它 是 如 何 工作 
的 了 。 你 可 能 在 关于 架构 的 辩论 上 顾 不 了 分 布 式 系统 专家 ， 但 你 可 以 
理解 他 们 在 说 什么 了 。 无 论 如 何 ， 学 习 本 附录 的 目的 并 不 是 赢得 辩 


论 ! 


关于 封面 搬 图 


《HBase 实战 》 封 面 插图 的 标题 是 “ 利 布尔 尼 亚 渔 妇 ” (Liburnian 
Fisherwoman) 。 利 布尔 尼 亚 人 是 居住 在 利 布尔 尼 亚 地 区 的 一 个 古老 的 
伊利 里 亚 部 落 ， 该 地 区 位 于 亚 得 里 亚 海 东北 的 沿海 地 区 ， 属 于 今天 的 
克罗地亚 。2008 年 ， 克 罗 地 亚 斯 普 利 特 市 的 民族 博物 饶 重 新 出 版 了 
Balthasar Hacquet 的 著作 Images and Descriptions of Southwestern and 
Eastern Wenda, Illyrians, and Slavs, 这 幅 插 图 取材 于 最 这 这 本 书 中 。 
Hacquet (1739-1815) 是 奥地利 医生 和 科学 家 ， 他 费时 多 年 研究 奥 地 
利 带 国 许多 地 新 的 植物 学 、 地 质 学 和 人 种 ， 如 威 内 托 、 尤 利安 阿尔 摆 
斯 和 西 巴 尔 干 半岛 ， 过 去 这 些 地 新 居住 着 许多 不 同 的 民族 和 部 落 。 
Hacquet 出 版 的 科学 论文 和 书籍 中 有 一 些 手 绘 插图 。 

这 些 多 姿 多 彩 的 搬 图 生动 地 反映 了 200 年 前 阿尔 指 斯 山脉 和 巴尔 干 
半岛 地 区 的 独特 性 和 个 性 。 那 个 时 候 ， 间 隔 几 公里 远 的 两 个 村 庄 的 人 
就 可 以 通过 服饰 区 别 开 来 ， 部 族 成 员 、 社 会 地 位 或 者 行业 通过 着 装 可 
以 轻松 辨别 出 来 。 服 饰 随 着 时 间 逐 渐变 化 ， 曾 经 丰富 的 区 域 多 样 性 慢 
慢 消 失 了 。 今 天 已 经 很 难 区 分 不 同 大 陆 的 居民 ， 亚 得 里 亚 海滨 独特 的 
小 镇 和 村 庄 里 的 居民 也 很 难 与 生活 在 世界 上 其 他 地 新 的 人 区 分 开 。 

Manning 出 版 社 取材 此 类 插图 ， 用 两 个 世纪 前 的 服装 作为 书 的 封 
面 ， 借 此 颂扬 计算 机 行业 中 的 创 羯 精神、 主动 精神 和 趣味 性 。 


